CN113742493A

CN113742493A - 一种病理知识图谱的构建方法及装置

Info

Publication number: CN113742493A
Application number: CN202111021649.8A
Authority: CN
Inventors: 骆佳俊; 马可; 许永超; 李力行; 凌少平; 马振华; 贾红丽
Original assignee: Genowis Beijing Gene Technology Co ltd
Current assignee: Genowis Beijing Gene Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-12-03

Abstract

本申请提供了一种病理知识图谱的构建方法及装置，包括根据不同语料来源的医疗文本数据，创建病理数据知识库，病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系；基于医学数据，根据预设医学规则，创建医学规则知识库，医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系；确定疾病类实体对与解读类实体对中的等价类实体；基于等价类实体，将病理数据知识库和医学规则知识库融合为目标知识库；基于目标知识库形成目标病理知识图谱以进行存储。

Description

一种病理知识图谱的构建方法及装置

技术领域

本申请涉及医疗数据处理技术领域，具体而言，涉及一种病理知识图谱的构建方法及装置。

背景技术

医疗知识图谱的构建目的大多是为了解决临床业务或者互联网医疗业务的场景需求。但是，对于医疗行业的细分领域，病理大数据行业，目前并没有相对成熟、完整的知识图谱，来辅助并实践病理业务场景的需求落地。因此，针对病理行业的辅助诊疗判断、智能导诊、病理数据结构化处理、病理数据分析解读等真实场景的需求，病理知识图谱的创建具有非常重要的价值和意义。

此外，病理知识图谱还可以作为核心技术辅助手段，应用于医疗大数据平台的数据存储、查询、推理和数据挖掘。传统的高通量测序数据解读主要依赖于基于规则或者降维等数据分析方法实现。将病理知识图谱应用于这一场景，可以方便病理医生进行分子指标解读，提高产出分子病理报告的效率。

发明内容

有鉴于此，本申请的目的在于提供一种病理知识图谱的构建方法、装置、电子设备及存储介质，目的在于提供一种来源真实、覆盖面广泛、可移植性高的病理知识图谱，并应用于数据解读系统以获取病理分析图谱。

第一方面，本申请实施例提供一种病理知识图谱的构建方法，包括：根据不同语料来源的医疗文本数据，创建病理数据知识库，病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系；基于医学数据，根据预设医学规则，创建医学规则知识库，医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系；确定疾病类实体对与解读类实体对中的等价类实体；基于等价类实体，将病理数据知识库和医学规则知识库融合为目标知识库；基于目标知识库形成目标病理知识图谱以进行存储。

优选地，根据不同语料来源的医疗文本数据，创建病理数据知识库的步骤，具体包括：将医疗文本数据输入实体识别模型，获得多个疾病类实体，并将多个疾病类实体随机组合，获得多个预测实体对；针对每个预测实体对，将该预测实体对输入关系识别模型，获得该预测实体对中的两个疾病实体之间的预测实体关系；基于预测实体关系，从多个预测实体对中筛选出符合实体关系条件的预测实体对；将筛选出的预测实体对确定为疾病类实体对，将筛选出的预测实体对之间的预测实体关系确定为第一实体关系，以生成病理数据知识库。

优选地，通过以下方式确定每个预测实体对中的两个疾病实体之间的预测实体关系：确定预测实体对的词向量；确定预测实体对所在语句的句子向量；将所确定的词向量和句子向量输入关系识别模型，获得预测实体对中的两个疾病实体之间的预测实体关系。

优选地，预设医学规则包括疾病变异解读关系，通过以下方式创建医学规则知识库：从医学数据中提取第一疾病实体；根据疾病变异解读关系，确定与所提取的第一疾病实体存在疾病解读关系的变异解读实体；

确定与变异解读实体存在一度解读关系或者多度解读关系的解读实体；确定与变异解读实体存在基因变异解读关系的基因变异序列；确定与基因变异序列存在一度解读关系或者多度解读关系的变异实体；将存在一度解读关系的实体确定为解读类实体对，将解读类实体对之间的一度解读关系确定为第二实体关系，以生成与第一疾病实体对应的医学规则知识库。

优选地，确定疾病类实体对与解读类实体对中的等价类实体的步骤，具体包括：从医学规则知识库的解读类实体对中提取多个第一疾病实体；针对每个第一疾病实体，确定该第一疾病实体的同义词、上位词和下位词，形成该第一疾病实体的第一实体集；从病理数据知识库的疾病类实体对中提取多个第二疾病实体；针对每个第二疾病实体，确定该第二疾病实体的同义词、上位词和下位词，形成该第二疾病实体的第二实体集；针对每个第一实体集，计算该第一实体集与每个第二实体集的相似度；将相似度最大的第一实体集和第二实体集中的第一疾病实体和第二疾病实体确定为等价类实体。

优选地，基于目标知识库形成目标病理知识图谱以进行存储的步骤，具体包括：将目标病理知识图谱以关系型数据库的形式进行存储；和/或，将目标病理知识图谱以图数据库的形式进行存储。

优选地，接收用户的数据解读请求，数据解读请求中包括目标疾病实体和目标基因变异序列；确定数据解读请求的搜索类型；如果确定搜索类型为单层查询或者短路径业务搜索，则从关系型数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系；如果确定搜索类型为多层查询或者多路径业务搜索，则从图数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系；输出与数据解读请求对应的搜索结果，搜索结果包括搜索到的疾病类实体对和第一实体关系、解读实体和解读关系、变异实体和解读关系。

第二方面，本申请实施例还提供一种病理知识图谱的构建装置，包括：

第一创建模块，用于根据不同语料来源的医疗文本数据，创建病理数据知识库，病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系；

第二创建模块，用于基于医学数据，根据预设医学规则，创建医学规则知识库，医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系；

确定模块，用于确定疾病类实体对与解读类实体对中的等价类实体；

融合模块，用于基于等价类实体，将病理数据知识库和医学规则知识库融合为目标知识库；

存储模块，用于基于目标知识库形成目标病理知识图谱以进行存储。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，存储器存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储器之间通过总线通信，处理器执行机器可读指令，以执行如上所述病理知识图谱的构建方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行如上所述病理知识图谱的构建方法的步骤。

本申请实施例提供的一种病理知识图谱的构建方法及装置，通过不同预料来源的医疗文本数据提取病理数据知识库，基于医学数据整理生成医学规则知识库，将病理数据知识库和医学规则知识库通过等价类实体进行融合，以生成完整的目标知识库，包括病理数据的实体、关系和属性，提供了一种来源于真实医疗资料的、覆盖面广泛的病理知识库。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的病理知识图谱的构建方法的流程图；

图2为本申请实施例所提供的病理数据知识库的创建方法的流程图；

图3为本申请实施例所提供的医学规则知识库的创建方法的流程图；

图4为本申请实施例所提供的等价类实体的确定方法的流程图；

图5为本申请实施例所提供的目标病理知识图谱的应用方法的流程图；

图6为本申请实施例所提供的病理数据知识库的图谱结构示意图；

图7为本申请实施例所提供的搜索结果的图谱结果示意图；

图8为本申请实施例所提供的病理知识图谱的构建装置的结构示意图；

图9为本申请实施例所提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

现有技术中，医疗知识图谱的构建目的大多是为了解决临床业务或者互联网医疗业务的场景需求。但是，对于医疗行业的细分领域，病理大数据行业，目前并没有相对成熟、完整的知识图谱，来辅助并实践病理业务场景的需求落地。因此，针对病理行业的辅助诊疗判断、智能导诊、病理数据结构化处理、病理数据分析解读等真实场景的需求，病理知识图谱的创建具有非常重要的价值和意义。

针对上述问题，本申请实施例提供了一种病理知识图谱的构建方法、装置、电子设备及存储介质，下面通过实施例进行描述。

为便于对本申请进行理解，下面结合具体实施例对本申请提供的技术方案进行详细说明。

请参阅图1，为本申请实施例提供的一种病理知识图谱的构建方法，该方法包括：

S101、根据不同语料来源的医疗文本数据，创建病理数据知识库，病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系。

首先，如图6所示，在创建病理数据知识库之前，需要根据病理行业内技术人员，根据病理学场景，人工设计出知识图谱的模式，确定知识图谱的实体类别，关系类别和属性类别。例如，病理数据知识库中的疾病类实体可以包括疾病、人体形态结构、检测项目、组织学分级等实体，每两个疾病类实体之间通过第一实体关系相关联，第一实体关系包括上位词和下位词、疾病发生部位、疾病检查手段等。其中，疾病与人体形态结构通过疾病发生部位关联，并以实体-关系-实体的三元组实体关系对的形式存在，例如病理数据知识库中可以包括“心脏病-疾病发生部位-心脏”。

S102、基于医学数据，根据预设医学规则，创建医学规则知识库，医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系。

在医学规则知识库中，解读类实体包括疾病变异解读、疾病、治疗药物、参考文献、基因变异解读、基因(转录)本、基因名称等实体，第二实体关系包括基因变异解读、疾病解读、解读证据、解读文献、基因变异转录本等关系。其中，可以理解的是疾病和疾病变异解读这两个实体之间通过疾病解读这一关系关联，疾病变异解读和基因变异解读这两个实体之间通过基因变异解读这一关系关联。

具体的，还包括为病理数据知识库和医学规则知识库中的疾病类实体和解读类实体按照预设的属性类别添加属性值，例如，疾病的属性分别包含疾病的英文名、实体ID号、该疾病来源、病理描述和ICDO标准编码等。其中的数据以实体-属性-属性值的三元组实体属性对的形式存在。

S103、确定疾病类实体对与解读类实体对中的等价类实体。

在步骤S103中，确定出疾病类实体对与解读类实体对中等价类实体，在本申请中病理数据知识库和医学规则知识库是通过疾病这一核心实体关联的，因此疾病这一实体就是等价类实体。

S104、基于等价类实体，将病理数据知识库和医学规则知识库融合为目标知识库。

在步骤S104中，将病理数据知识库和医学规则知识库通过等价类实体进行融合，因为等价类实体的实体名称之间基本一致，属性也相同，因此可以实现实体对齐。基于等价类实体将两个知识库融合为一个目标知识库对应于目标病理知识图谱。这里的目标病理知识图谱应用于数据解读系统的搜索，以生成目标知识图谱。

S105、基于目标知识库形成目标病理知识图谱以进行存储。

在步骤S105中，可以将目标病理知识图谱以关系型数据库的形式进行存储；和/或，将目标病理知识图谱以图数据库的形式进行存储。

将目标病理知识图谱同时存储为关系型数据库和图数据库。其中，关系型数据库适用于单层查询或者短路径的搜索业务，图数据库适用于多层查询或遍历查询的搜索业务。可以根据不同的业务需求选择目标病理知识图谱的存储格式，提高了目标病理知识图谱的可移植性。

本申请的实施例中，通过病理数据行业经验和图谱的应用需求，设计出图谱的模式，基于医学领域的日常文件和病理病历等进行疾病类的实体挖掘和关系挖掘以生成病理数据知识库，基于医学文献等资料进行解读类实体和关系挖掘以生成医学规则知识库，将病理数据知识库和医学规则知识库基于各自的等价类实体进行融合，以生成目标知识库转化为目标病理知识图谱，提供了一种来源真实、覆盖面广泛、可移植性高的病理知识图谱，可以应用于数据解读系统以获取病理分析图谱。

请参阅图2，为本申请实施例提供的病理数据知识库的创建方法，该方法包括：

S201、将医疗文本数据输入实体识别模型，获得多个疾病类实体，并将多个疾病类实体随机组合，获得多个预测实体对。

在步骤S201中，医疗文本数据可以包括医学日常文件、病理爬虫数据、病理电子病历和全国版国际疾病分类编码(ICD-10)等医学场景常用的文件。实体识别模型为一种全监督学习模型，具体为一种堆叠式双向长短词记忆模型(BILSTM)。

首先对所有的医疗文本数据进行预处理，去除特殊字符和网络标识符等。在医疗文本数据中找到对应的实体并标注对应预设实体类别以及文字中的位置，预设实体类别可以为疾病、人体形态结构、检测项目、组织学分级等，这里使用的是BIOES序列标注方法。将标注好的医疗文本数据输入实体识别模型，以输出实体识别模型识别出与预设实体类别对应的疾病类实体。再通过人工对实体识别模型输出的结果进行检测，以确保提取出的疾病类实体的准确性，并按照统一的命名规则进行规范化的修改，最后生成用于构建病理数据知识库的病理类实体。

根据病理类实体的预设实体类别标签，将两个疾病类实体进行随机组合，以生成多个预测实体对。可以理解的是，只需要将预设实体类别标签具有一级实体关系的两个疾病类实体进行随机组合即可，例如将带有疾病标签和人体形态结构标签对应的实体进行随机组合，而带有疾病标签和检测项目指标标签的实体之间要通过带有检测项目标签的实体进行关联即具有两级实体关系，因此不需要进行组合，以简化计算过程，减轻工作量。

具体的，在标记出疾病类实体和对应预设实体类别的医疗文本数据中为每个预测实体对打标签。

S202、针对每个预测实体对，将该预测实体对输入关系识别模型，获得该预测实体对中的两个疾病类实体之间的预测实体关系。

这里的关系识别模型是一种双向循环神经网络(GRU)加注意力机制的标准模型训练生成的，关系识别模型的输入是文本的字向量，输出的预设实体关系，这里的预设实体关系可以为第一实体关系。

具体的，在输入的文本数据分布相似的情况下，可以直接采用全监督模型，用这种学习方式准确率的结果比较高，人工筛选和修改的工作比较少。在输入的文本数据相似度不太高的情况下，比如只标注了医学教材文本，但是需要抽取真实电子病历的实体关系，则需要使用半监督学习模式，通过少量的标注，预测出现的实体之间可能性最大的关联。这种情况，对于准确率的要求需要适当降低，并且提高人工审核力度。

通过关系识别模型对预测实体对进行识别，以梳理出预测实体中两个疾病类实体的实体关系。具体的，将标注好预测实体对的医疗文本数据输入关系识别模型，提取医疗文本数据的句子向量和预测实体对的词向量进行拼接，输入关系识别模型的嵌入层，从而获得实体关系的输出，实现了具有第一实体关系的疾病类实体对的预测。

S203、基于预测实体关系，从多个预测实体对中筛选出符合实体关系条件的预测实体对。

将模型预测出的预测实体对和预测实体对中两个疾病类实体之间的预测实体关系，送入人工筛选流程，以筛选出具有价值的预测实体对，将预测不准确的实体对删除或更正。

S204、将筛选出的预测实体对确定为疾病类实体对，将筛选出的预测实体对之间的预测实体关系确定为第一实体关系，以生成病理数据知识库。

将筛选过后的预测实体对确定为最终的疾病类实体对并基于疾病类实体之间的预测实体关系，将数据转化为实体-关系-实体的三元组形式，并存储为病理数据知识库。

请参阅图3，为本申请实施例提供的医学规则知识库的创建方法，该方法包括：

S301、从医学数据中提取第一疾病实体。

这里的第一疾病实体，可以为病理数据知识库中的疾病这一预设实体类别下的所有实体。

S302、根据疾病变异解读关系，确定与所提取的第一疾病实体存在疾病解读关系的变异解读实体。

基于第一疾病实体，确定出与其存在疾病解读关系的变异解读实体(疾病变异解读实体)。这里是根据医学规则人工梳理出来的，例如与肺腺癌(疾病)这一实体存在疾病解读关系的为非小细胞肺癌(变异解读实体)。

S303、确定与变异解读实体存在一度解读关系或者多度解读关系的解读实体。

可以理解的是，医疗规则知识库中的解读类实体和两个解读类实体之间关联的第二实体关系的类别都是预设好的。这里与变异解读实体存在一度解读关系的实体类别为药物和参考文献，与药物存在一度解读关系的实体类别可以为药物类型、药物状态和药物等级以及参考文献。因此根据预设好的实体类别按照与变异解读实体存在一度解读关系或多度解读关系的顺序依次梳理出其他解读类实体类别下对应的信息。

S304、确定与变异解读实体存在基因变异解读关系的基因变异序列。

人工梳理出与变异解读实体存在基因变异解读关系的基因变异序列实体类别下的实体信息。例如非小细胞肺癌(变异解读实体)存在基因变异解读关系的为EGFR型变异基因。

S305、确定与基因变异序列存在一度解读关系或者多度解读关系的变异实体。

这里与基因变异序列存在一度解读关系的实体类别为基因转录本、C区变异和P区变异，与基因转录本存在一度解读关系的实体类别为基因名称。

S306、将存在一度解读关系的实体确定为解读类实体对，将解读类实体对之间的一度解读关系确定为第二实体关系，以生成与第一疾病实体对应的医学规则知识库。

将梳理出的存在一度解读关系的实体生成解读类实体对，并为解读类实体对标注对应的第二实体关系，将数据转化为实体-关系-实体的三元组形式，并存储为医学规则知识库。

请参阅图4，为本申请实施例提供的等价类实体的确定方法，该方法包括：

S401、从医学规则知识库的解读类实体对中提取多个第一疾病实体。

根据前面创建的医学规则知识库中解读类实体对中获取疾病实体类别下的所有第一疾病实体。

S402、针对每个第一疾病实体，确定该第一疾病实体的同义词、上位词和下位词，形成该第一疾病实体的第一实体集。

对第一疾病实体进行整理，将第一疾病实体中同一个疾病实体的同义词、上位词和下位词进行分析，并删除或合并到与该实体对应实体关系的实体中去，并将修改后的第一疾病实体作为第一实体集，目的是将第一疾病实体进行标准化和归一化。

S403、从病理数据知识库的疾病类实体对中提取多个第二疾病实体。

S404、针对每个第二疾病实体，确定该第二疾病实体的同义词、上位词和下位词，形成该第二疾病实体的第二实体集。

对病理数据知识库中的疾病类别下的第二疾病实体进行提取，并重复如步骤S402的标准化和归一化处理，以获得第二实体集。

S405、针对每个第一实体集，计算该第一实体集与每个第二实体集的相似度。

S406、将相似度最大的第一实体集和第二实体集中的第一疾病实体和第二疾病实体确定为等价类实体。

对第一实体集中的每一个第一疾病实体，计算该第一疾病实体与每个第二疾病实体的相似度。这里的相似度计算采用的是余弦相似度和最小编辑距离结合的计算方式，将相似度最大的第一疾病实体和第二疾病实体对齐，确定为等价类实体。

请参阅图5，为本申请实施例提供的目标病理知识图谱的应用方法，该方法包括：

S501、接收用户的数据解读请求，数据解读请求中包括目标疾病实体和目标基因变异序列。

用户可以在数据解读系统中输入用于检索的文本信息，其中至少包括目标疾病实体和目标基因变异系列等信息，数据解读系统对文本信息中与目标病理知识图谱中实体类别对应的信息进行提取，以获取目标疾病实体和目标基因变异序列等信息。

S502、确定数据解读请求的搜索类型。

S503、如果确定搜索类型为单层查询或者短路径业务搜索，则从关系型数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系。

S504、如果确定搜索类型为多层查询或者多路径业务搜索，则从图数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系。

S505、输出与数据解读请求对应的搜索结果，搜索结果包括搜索到的疾病类实体对和第一实体关系、解读实体和解读关系、变异实体和解读关系。

如图7所示，为本申请实施例所提供的搜索结果的图谱结果示意图，根据业务需求确定数据解读请求的搜索类型，例如用户想要输出多级关系的知识图谱，则选择关系型数据库作为搜索基础，如果只需要输出一级关系的知识图谱则选择图数据库作为搜索基础。

具体的，在数据库中搜索出与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系，并基于提取的数据形成目标知识图谱。可以理解的是，还可以将搜索出的实体对应的属性也一同以图谱的形式输出。

在一实施例中，本申请提供了一种医疗病理大数据知识图谱的构建方法以及对应的数据解读系统，通过以下步骤实现：

一，根据病理数据的行业经验，由自上而下的方式设计图谱模式。

具体的，根据目前病理数据的行业经验，使用自上而下的设计方式。定义两个知识库中的实体类别、属性以及关系类别、属性。比如，疾病实体属性是贯穿两个知识库的核心实体，分别包含疾病的英文名、实体ID号、该疾病来源、病理描述和ICDO标准编码。关系中包含疾病自身的上下位、发生部位、检查手段等，和其他实体类型产生关联。设计的基础条件是参考了各大医疗领域的语义网络，在专家的指导下完成。因为无法通过机器阅读理解技术来自动构建图谱模式来创建知识库，需要行业内的专家根据病理学数据场景，人工参与构建和审核，确保知识的可解释性和可信度。此外，医学知识的复杂性，基于经验性的多种丰富内涵的表达，也需要考虑到知识图谱的设计模式中。

二，根据医疗日常文件、爬虫数据、编码标准文献等资料，用全监督学习的方式进行知识抽取，提取实体、属性和关系集合，生成病理数据知识库。

这一步分为实体挖掘和关系挖掘两个部分。其中，实体挖掘使用的是全监督深度学习网络预测的方式。所有的文本首先需要经过统一的预处理，包括去除停用词、html标识符以及其他特殊字符，完成全半角和大小写转换。之后进行语料的标注，将对应的实体标记出标签的类别和在文本中的索引位置，标注方式为BIOS。选择堆叠式BILSTM作为最终选择的网络模型进行模型预测。

此外，根据业务专业词汇，加入人工规则，对预测结果进一步修饰来进行结果融合，加入词法分析功能，最终生成医学术语集。

其次，关系挖掘中采用的为全监督的方式。在语料文本相似的情况，比如多家不同医院相同癌种的病理诊断描述文本，混合文本集后，抽取部分作为标注集，可以使用全监督的方式进行训练。用这种学习方式对模型训练结果的平衡分数(F1)和准确率的指标要求高，以减少后期人工筛选和修改的工作量。该关系挖掘模型采用的是预训练的词向量，双向GRU加注意力机制的模型，该模型的架构天然适配中文特性的字向量，方便作为输入。

具体实现为，将上游任务产生的实体进行实体对匹配后，投入到下游的标注任务中，根据前一步骤的schema设计内容，在每行文本中给每个实体对打标签，并和对应文本绑定。采用维基百科语料训练的word2vec模型作为字向量，将句子本身向量和对应的实体对的词向量进行拼接作为模型的嵌入层输入，关系对应的标签分类作为输出，使用Adam优化器，交叉熵作为损失函数，进行模型训练。训练完毕的模型将用于剩余未标注的语料库进行预测，最后探索不同实体之间的关系的可能性，送入人工筛选流程找出有价值的实体关系对，存储入知识库中。

三，从专业医学文献、医学指南和报导等公开知识领域资料，抽取专业知识数据，并结合人工规则，生成医学规则知识库。

该库和上一个库相连的地方是为疾病名，该实体与自身的关系为同义词和上下词。比如，“肺非典型腺瘤样增生”的同义词为“肺不典型腺瘤样增生”，而上位词，即归属的疾病实体为“肺腺癌”。规则库加入了变异解读关系，该疾病将被解读为和基因相关的术语实体。变异解读实体同时也可以和解读证据(药物、等级、状态)一一对应的关联，此外该疾病也会和基因变异序列有所关联。该流程符合高通量测序基因测序的数据解读流程，提供规则推理引擎。

四，融合以上两个知识库，进行实体归一、实体对齐、关系融合，形成病理大数据知识图谱存入图数据库。

将两个知识库所有实体和关系整理出来，进行预处理、记录链接、实体和属性相似度计算、实体对齐、结果评估。评估结束后，两个知识库融合为目标病理知识图谱，用于存储和应用。

其中，预处理过程包括数据正则化、语法匹配(统一中英文表示)、输入错误类别的拓扑错误等。

记录链接包括记录实体、实体对应的属性以及和实体关系的打包和聚集。

实体相似度计算，采用的是余弦相似度和最小编辑距离结合的计算方式，判断出最接近的实体聚合，并实现实体对齐。

最终融合的知识库，生成的知识图谱要经过人工审查和校验后，才能最终进入存储环节。图谱的存储结构设计细节如主要内容所示，采用两种数据库分别存储内容的模式，应用于不同类别的业务需求。

五，将图谱嵌入到高通量测序数据解读系统，实现对高通量测序分子病理数据进行高精度、高速度的生信分析。

高通量测序数据解读系统使用的是图谱存储数据库，输入对应的疾病名称后，查询疾病实体的同义词，或者路径为1的下位词匹配到疾病标准词汇，查询该疾病的疾病变异解读实体。接着，将基因变异数据输入系统后，寻找疾病变异解读实体和基因变异解读实体是否存在关联，如果有关联，则打通两个实体对象的关系，进入下游的分析阶段；如果无关联，则继续用广度优先检索的遍历方式继续查找关联。

确定变异基因实例后，在图谱中查找到基因变异的转录本和p、c位点变异信息打包输出。

另一方面，可以利用知识图谱生成对于疾病变异实例的证据解读，包括药品、状态和等级以及解读依据的参考文献。最后，将末尾的节点信息进行打包后，从系统中导出，生成高通量测序分子检测报告，完成了高精度和效率的生信分析流程。

基于同一发明构思，本申请实施例中还提供了与病理知识图谱的构建方法对应的病理知识图谱的构建装置，由于本申请实施例中的病理知识图谱的构建装置解决问题的原理与本申请实施例上述病理知识图谱的构建方法相似，因此病理知识图谱的构建装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图8，图8为本申请实施例所提供的一种病理知识图谱的构建装置的结构示意图。如图8中所示，构建装置600包括：

第一创建模块610，用于根据不同语料来源的医疗文本数据，创建病理数据知识库，病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系；

第二创建模块620，用于基于医学数据，根据预设医学规则，创建医学规则知识库，医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系；

确定模块630，用于确定疾病类实体对与解读类实体对中的等价类实体；

融合模块640，用于基于等价类实体，将病理数据知识库和医学规则知识库融合为目标知识库；

存储模块650，用于基于目标知识库形成目标病理知识图谱以进行存储。

在一优选实施例中，第一创建模块610包括：

第一识别模块，用于将医疗文本数据输入实体识别模型，获得多个疾病实体，并将多个疾病实体随机组合，获得多个预测实体对；

第二识别模块，用于针对每个预测实体对，将该预测实体对输入关系识别模型，获得该预测实体对中的两个疾病实体之间的预测实体关系；

筛选模块，用于基于预测实体关系，从多个预测实体对中筛选出符合实体关系条件的预测实体对；

第一生成子模块，用于将筛选出的预测实体对确定为疾病类实体对，将筛选出的预测实体对之间的预测实体关系确定为第一实体关系，以生成病理数据知识库。

在一优选实施例中，第二识别模块通过以下方式确定每个预测实体对中的两个疾病实体之间的预测实体关系，还包括：

第一提取模块，用于确定预测实体对的词向量；

第二提取模块，用于确定预测实体对所在语句的句子向量；

输入模块，用于将所确定的词向量和句子向量输入关系识别模型，获得预测实体对中的两个疾病实体之间的预测实体关系。

在一优选实施例中，预设医学规则包括疾病变异解读关系，通过以下方式创建医学规则知识库，还包括：

第一获取模块，用于从医学数据中提取第一疾病实体；

第一确定子模块，用于根据疾病变异解读关系，确定与所提取的第一疾病实体存在疾病解读关系的变异解读实体；

第二确定子模块，用于确定与变异解读实体存在一度解读关系或者多度解读关系的解读实体；

第三确定子模块，用于确定与变异解读实体存在基因变异解读关系的基因变异序列；

第四确定子模块，用于确定与基因变异序列存在一度解读关系或者多度解读关系的变异实体；

第二生成子模块，用于将存在一度解读关系的实体确定为解读类实体对，将解读类实体对之间的一度解读关系确定为第二实体关系，以生成与第一疾病实体对应的医学规则知识库。

在一优选实施例中，确定模块具体包括：

第二获取模块，用于从医学规则知识库的解读类实体对中提取多个第一疾病实体；

第一分析模块，用于针对每个第一疾病实体，确定该第一疾病实体的同义词、上位词和下位词，形成该第一疾病实体的第一实体集；

第三获取模块，用于从病理数据知识库的疾病类实体对中提取多个第二疾病实体；

第二分析模块，用于针对每个第二疾病实体，确定该第二疾病实体的同义词、上位词和下位词，形成该第二疾病实体的第二实体集；

计算模块，用于针对每个第一实体集，计算该第一实体集与每个第二实体集的相似度；

判断模块，用于将相似度最大的第一实体集和第二实体集中的第一疾病实体和第二疾病实体确定为等价类实体。

在一优选实施例中，存储模块具体包括：

第一存储子模块，用于将目标病理知识图谱以关系型数据库的形式进行存储；和/或，

第二存储子模块，用于将目标病理知识图谱以图数据库的形式进行存储。

在一优选实施例中，还包括：

接受模块，用于接收用户的数据解读请求，数据解读请求中包括目标疾病实体和目标基因变异序列；

子分析模块，用于确定数据解读请求的搜索类型；

第一搜索模块，用于如果确定搜索类型为单层查询或者短路径业务搜索，则从关系型数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系；

第二搜索模块，用于如果确定搜索类型为多层查询或者多路径业务搜索，则从图数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系；

输出子模块，用于输出与数据解读请求对应的搜索结果，搜索结果包括搜索到的疾病类实体对和第一实体关系、解读实体和解读关系、变异实体和解读关系。

请参阅图9，图9为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示，电子设备700包括处理器710、存储器720和总线730。

存储器720存储有处理器710可执行的机器可读指令，当电子设备700运行时，处理器710与存储器720之间通过总线730通信，机器可读指令被处理器710执行时，可以执行如上述实施例中的病理知识图谱的构建方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述实施例中的病理知识图谱的构建方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种病理知识图谱的构建方法，其特征在于，包括：

根据不同语料来源的医疗文本数据，创建病理数据知识库，所述病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系；

基于医学数据，根据预设医学规则，创建医学规则知识库，所述医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系；

确定疾病类实体对与解读类实体对中的等价类实体；

基于所述等价类实体，将所述病理数据知识库和所述医学规则知识库融合为目标知识库；

基于所述目标知识库形成目标病理知识图谱以进行存储。

2.根据权利要求1所述的方法，其特征在于，所述根据不同语料来源的医疗文本数据，创建病理数据知识库的步骤，具体包括：

将所述医疗文本数据输入实体识别模型，获得多个疾病类实体，并将所述多个疾病类实体随机组合，获得多个预测实体对；

针对每个预测实体对，将该预测实体对输入关系识别模型，获得该预测实体对中的两个疾病类实体之间的预测实体关系；

基于所述预测实体关系，从所述多个预测实体对中筛选出符合实体关系条件的预测实体对；

将筛选出的预测实体对确定为疾病类实体对，将筛选出的预测实体对之间的预测实体关系确定为第一实体关系，以生成病理数据知识库。

3.根据权利要求2所述的方法，其特征在于，通过以下方式确定每个预测实体对中的两个疾病实体之间的预测实体关系：

确定预测实体对的词向量；

确定预测实体对所在语句的句子向量；

将所确定的词向量和句子向量输入关系识别模型，获得预测实体对中的两个疾病实体之间的预测实体关系。

4.根据权利要求1所述的方法，其特征在于，所述预设医学规则包括疾病变异解读关系，通过以下方式创建医学规则知识库：

从医学数据中提取第一疾病实体；

根据疾病变异解读关系，确定与所提取的第一疾病实体存在疾病解读关系的变异解读实体；

确定与所述变异解读实体存在一度解读关系或者多度解读关系的解读实体；

确定与所述变异解读实体存在基因变异解读关系的基因变异序列；

确定与所述基因变异序列存在一度解读关系或者多度解读关系的变异实体；

将存在一度解读关系的实体确定为解读类实体对，将解读类实体对之间的一度解读关系确定为第二实体关系，以生成与第一疾病实体对应的医学规则知识库。

5.根据权利要求1所述的方法，其特征在于，所述确定疾病类实体对与解读类实体对中的等价类实体的步骤，具体包括：

从所述医学规则知识库的解读类实体对中提取多个第一疾病实体；

针对每个第一疾病实体，确定该第一疾病实体的同义词、上位词和下位词，形成该第一疾病实体的第一实体集；

从所述病理数据知识库的疾病类实体对中提取多个第二疾病实体；

针对每个第二疾病实体，确定该第二疾病实体的同义词、上位词和下位词，形成该第二疾病实体的第二实体集；

针对每个第一实体集，计算该第一实体集与每个第二实体集的相似度；

将相似度最大的第一实体集和第二实体集中的第一疾病实体和第二疾病实体确定为等价类实体。

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标知识库形成目标病理知识图谱以进行存储的步骤，具体包括：

将所述目标病理知识图谱以关系型数据库的形式进行存储；

和/或，将所述目标病理知识图谱以图数据库的形式进行存储。

7.根据权利要求6所述的方法，其特征在于，还包括：

接收用户的数据解读请求，所述数据解读请求中包括目标疾病实体和目标基因变异序列；

确定所述数据解读请求的搜索类型；

如果确定搜索类型为单层查询或者短路径业务搜索，则从关系型数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系；

如果确定搜索类型为多层查询或者多路径业务搜索，则从图数据库中搜索与目标疾病实体对应的疾病类实体对和第一实体关系，以及与目标疾病实体对应的解读实体和解读关系、与目标基因变异序列对应的变异实体和解读关系；

输出与数据解读请求对应的搜索结果，所述搜索结果包括搜索到的疾病类实体对和第一实体关系、解读实体和解读关系、变异实体和解读关系。

8.一种病理知识图谱的构建装置，其特征在于，包括：

第一创建模块，用于根据不同语料来源的医疗文本数据，创建病理数据知识库，所述病理数据知识库包括疾病类实体对和用于表征疾病类实体对中的两个疾病实体之间关联的第一实体关系；

第二创建模块，用于基于医学数据，根据预设医学规则，创建医学规则知识库，所述医学规则知识库包括解读类实体对和用于表征解读类实体对中的两个解读实体之间关联的第二实体关系；

融合模块，用于基于所述等价类实体，将所述病理数据知识库和所述医学规则知识库融合为目标知识库；

存储模块，用于基于所述目标知识库形成目标病理知识图谱以进行存储。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7中任一所述的病理知识图谱的构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7中任一所述的病理知识图谱的构建方法的步骤。