CN113704496B

CN113704496B - 医疗知识图谱的修复方法、装置、计算机设备及存储介质

Info

Publication number: CN113704496B
Application number: CN202111015960.1A
Authority: CN
Inventors: 徐啸
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2024-01-26
Anticipated expiration: 2041-08-31
Also published as: CN113704496A

Abstract

本发明涉及人工智能和数字医疗领域，公开了一种医疗知识图谱的修复方法、装置、计算机设备及存储介质，其中方法包括：根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。本发明能够提高医疗知识图谱的修复精度。

Description

医疗知识图谱的修复方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能领域，尤其是涉及一种医疗知识图谱的修复方法、装置、计算机设备及存储介质。

背景技术

医疗知识图谱中存储了丰富的医学概念，以及这些概念之间的关联，医疗知识图谱可以融入到很多预测任务或者分析任务中，由于医疗知识图谱中很多关联关系是从海量文本中自动爬取的，因此不可避免存在一些质量问题，为了保证后续预测结果或者分析结果的准确性，有必要对医疗知识图谱进行修复。

目前，在对医疗知识图谱进行修复时，通常根据医疗知识图谱中已有的关联关系，判定图谱中哪些关联关系存在冲突或者缺失，以此来对医疗知识图谱进行修复。然而，由于医疗知识图谱中的信息是有限的，因此这种方式很难全面地找出医疗知识图谱中存在的问题，与此同时，这种方式很难保证修复后的医疗知识图谱对于预测任务或者分析任务有切实的帮助。

发明内容

本发明提供了一种医疗知识图谱的修复方法、装置、计算机设备及存储介质，主要在于能够提高医疗知识图谱的修复精度，同时能够保证修复后的医疗知识图谱对于后续的分析任务或者预测任务有切实的帮助，即能够提高分析结果或者预测结果的准确度。

根据本发明的第一个方面，提供一种医疗知识图谱的修复方法，包括：

获取患者的样本就诊数据中所涉及的实际医疗项；

根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；

基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；

基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；

基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。

根据本发明的第二个方面，提供一种医疗知识图谱的修复装置，包括：

获取单元，用于获取患者的样本就诊数据中所涉及的实际医疗项；

构建单元，用于根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；

预测单元，用于基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；

确定单元，用于基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；

修复单元，用于基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取患者的样本就诊数据中所涉及的实际医疗项；

根据本发明的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取患者的样本就诊数据中所涉及的实际医疗项；

本发明提供的一种医疗知识图谱的修复方法、装置、计算机设备及存储介质，与目前基于医疗知识图谱自身的信息进行图谱修复的方式相比，本发明能够获取患者的样本就诊数据中所涉及的实际医疗项；并根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；与此同时，基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；并基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；最终基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复，由此通过引入大量患者的样本就诊数据(电子健康档案数据)对每种关联关系的第一邻接矩阵进行迭代训练，能够全面地找出医疗知识图谱中缺失的关联关系或者错误的关联关系，从而基于迭代后的第一邻接矩阵对医疗知识图谱进行修复，能够提高医疗知识图谱的修复精度，与此同时，由于将第一邻接矩阵的迭代过程与预测任务相结合，因此能够保证修复后的医疗知识图谱对于预测任务有切实的帮助，能够提高预测任务的预测精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种医疗知识图谱的修复方法流程图；

图2示出了本发明实施例提供的另一种医疗知识图谱的修复方法流程图；

图3示出了本发明实施例提供的一种医疗知识图谱的修复装置的结构示意图；

图4示出了本发明实施例提供的另一种医疗知识图谱的修复装置的结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，由于医疗知识图谱中的信息是有限的，因此根据已有的关联关系很难全面地找出医疗知识图谱中存在的问题，与此同时，这种方式很难保证修复后的医疗知识图谱对于预测任务或者分析任务有切实的帮助。

为了解决上述问题，本发明实施例提供了一种医疗知识图谱的修复方法，如图1所示，所述方法包括：

101、获取患者的样本就诊数据中所涉及的实际医疗项。

其中，样本就诊数据为患者的电子健康档案中所记录的多次就诊数据，实际医疗项为患者每次就诊过程中所涉及的医疗项，如药品、耗材等医疗项。为了克服现有技术中对医疗知识图谱的修复精度较低，且修复后的医疗知识图谱对后续的预测任务或者分析任务没有切实帮助的缺陷，本发明实施例通过引入大量患者的电子健康档案数据对医疗知识图谱中每种关联关系对应的第一邻接矩阵进行迭代，能够全面地找出医疗知识图谱中缺失的关联关系或者错误的关联关系，并基于迭代后的第一邻接矩阵对医疗知识图谱进行修复，从而能够提高医疗知识图谱的修复精度，同时通过将第一邻接矩阵的迭代过程与预测任务相结合，能够保证修复后的医疗知识图谱对于预测任务有切实的帮助。本发明实施例主要应用于对医疗知识图谱进行修复的场景。本发明实施例的执行主体为能够对知识图谱进行修复的装置或者设备，具体可以设置在服务器一侧。

对于本发明实施例，由于电子健康档案数据中包含有丰富的医学知识，因此可以引入患者的电子健康数据对医疗知识图谱进行修复。具体地，查询大量患者的电子健康档案，并收集电子健康档案中患者的就诊数据，电子健康档案中可能包括患者的多次就诊数据，将患者每次就诊的数据作为一组样本数据，同时确定每组样本数据中所涉及的实际医疗项，如患者上次就诊过程中所涉及的药品、耗材等，由此通过查询大量患者的电子健康档案，能够收集多组样本就诊数据及其所涉及的实际医疗项。

102、根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵。

其中，已有的医疗知识图谱中包含各个项目节点，以及任意两个项目节点之间的关联关系，各个项目节点具体可以药品、耗材、诊断等等，项目节点之间的关联关系具体可以为适应症、并发症、禁忌症等等。对于本发明实施例，为了对知识图谱进行修复，需要针对知识图谱中的每种关联关系，构建一个第一邻接矩阵，该第一邻接矩阵中的元素表示知识图谱中的两个项目节点之间是否具有相应类型的关联关系。

具体地，首先获取一个已有的医疗知识图谱，根据该医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有某种关联关系，针对医疗知识图谱中每种关联关系，构建一个原始邻接矩阵(第二邻接矩阵)A_r ⁽⁰⁾，原始邻接矩阵中第i行，第j列的元素Ar⁽⁰⁾[i][j]代表医疗知识图谱中第i个项目节点和第j个项目节点之间是否具有第r种关联关系，如果第i个项目节点和第j个项目节点之间具有第r种关联关系，则确定元素Ar⁽⁰⁾[i][j]为1；如果第i个项目节点和第j个项目节点之间不具有第r种关联关系，则确定元素Ar⁽⁰⁾[i][j]为0，在医疗知识图谱中如果存在R种关联关系，则会构建R个A_r ⁽⁰⁾，由此按照上述方式能够针对医疗知识图谱中存在的每种关联关系，构建一个原始邻接矩阵(第二邻接矩阵)。

进一步地，针对每种关联关系，随机给定各个项目节点对应的第一初始化向量，以及各个项目节点对应的第一权重，得到第一初始图注意力网络，之后利用原始邻接矩阵(第二邻接矩阵)确定各个项目节点中任意一个项目节点(目标项目节点)的相邻项目节点(第一相邻项目节点)，例如，针对第r种关联关系的原始邻接矩阵，如果Ar⁽⁰⁾[i][j]为1，则说明第i个项目节点与第j个项目节点具有第r种关联关系，同时能够说明第i个项目节点与第j个项目节点相连接，即第i个项目节点与第j个项目节点互为相邻项目节点，由此根据每种关联关系对应的原始邻接矩阵，能够确定各个项目节点中任意一个项目节点对应的第一相邻项目节点，进一步地，利用第一初始图注意力网络，将第一相邻项目节点对应的第一初始化向量加权求和，能够得到知识图谱中任意一个项目节点在每种关联关系下的第二嵌入向量。

进一步地，构建每种关联关系对应的初始评分函数，之后根据任意一个项目节点在每种关联关系下的第二嵌入向量和该初始函数，能够计算出任意两个项目节点在每种关联关系下的关联评分，接着根据计算的关联评分，构建每种关联关系对应的第一邻接矩阵，针对第一邻接矩阵的具体构建过程见步骤202-205。

103、基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项。

对于本发明实施例，为了保证修复后的医疗知识图谱对于后续的预测任务有切实的帮助，需要将第一邻接矩阵的迭代过程与预测任务相结合。具体地，首先确定每组样本就诊数据中所涉及的实际医疗项在医疗知识图谱中对应的项目节点，之后重新随机给定各个项目节点对应的第二初始化向量，以及各个项目节点对应的第二权重，得到第二初始图注意力网络，接着根据每种关联关系对应的第一邻接矩阵，确定实际医疗项对应的项目节点的相邻项目节点(第二相邻项目节点)，利用该第二初始图注意力网络，将第二项目节点对应的第二初始化向量加权求和，得到实际医疗项对应的项目节点在每种关联关系下的第一嵌入向量，进一步地，针对每种关联关系，初始化一个多层感知器用于预测，将该第一嵌入向量作为该组样本就诊数据对应的特征向量，将该特征向量输入至初始多层感知器中进行预测，得到该组样本就诊数据对应的预测医疗项，初始多层感知器的输出实质上是一个one-hot向量，如初始多层感知器的输出向量为(0,1,0,0,1,0,0)，代表患者的本次就诊数据中仅涉及红霉素和阿莫西林药品，由此通过该第一嵌入向量和初始多层感知器，能够确定患者在每种关联关系下的预测医疗项，确定预测医疗项的具体过程见步骤206。

104、基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵。

对于本发明实施例，为了确定医疗知识图谱中存在错误的关联关系和缺失的关联关系，针对每种关联关系，根据得到的预测医疗项和实际医疗项，构建每种关联关系对应的损失函数，基于每种关联关系对应的损失函数，共同对第一初始图注意力网络、第二初始图注意力网络、初始评分函数和初始多层感知器进行训练，在对上述模型进行训练的过程中，能够不断地对每种关联关系对应的第一邻接矩阵中的元素进行迭代，由于第一邻接矩阵中的元素代表医疗知识图谱中任意两个项目节点之间是否具有相应的关联关系，因此在对第一邻接矩阵迭代的过程中，能够不断地任意两个项目节点之间的关联关系进行更新，由此找到知识图谱中存在错误的关联关系，以及缺陷的关联关系。

105、基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。

对于本发明实施例，当损失函数值达到最小时，停止对模型的迭代训练，从而能够确定每种关联关系对应的第一图注意力网络和评分函数，进而能够确定每种关联关系对应的迭代后的第一邻接矩阵，如果迭代后的第一邻接矩阵中元素Ar^(-)[i][j]大于预设阈值，则说明项目节点i和项目节点j之间具有第r种关联关系，因此在医疗知识图谱中增加或者保留项目节点i和项目节点j之间的第r种关联关系；如果迭代后的第一邻接矩阵中元素Ar^(-)[i][j]小于或者预设阈值，则说明项目节点i和项目节点j之间不具有第r种关联关系，因此在医疗知识图谱中移除项目节点i和项目节点j之间的第r种关联关系，从而实现对医疗知识图谱的修复。

本发明实施例提供的一种医疗知识图谱的修复方法，与目前基于医疗知识图谱自身的信息进行图谱修复的方式相比，本发明能够获取患者的样本就诊数据中所涉及的实际医疗项；并根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；与此同时，基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；并基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；最终基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复，由此通过引入大量患者的样本就诊数据(电子健康档案数据)对每种关联关系的第一邻接矩阵进行迭代训练，能够全面地找出医疗知识图谱中缺失的关联关系或者错误的关联关系，从而基于迭代后的第一邻接矩阵对医疗知识图谱进行修复，能够提高医疗知识图谱的修复精度，与此同时，由于将第一邻接矩阵的迭代过程与预测任务相结合，因此能够保证修复后的医疗知识图谱对于预测任务有切实的帮助，能够提高预测任务的预测精度。

进一步的，为了更好的说明上述修复医疗知识图谱的过程，作为对上述实施例的细化和扩展，本发明实施例提供了另一种医疗知识图谱的修复方法，如图2所示，所述方法包括：

201、获取患者的样本就诊数据中所涉及的实际医疗项。

对于本发明实施例，为了引入大量患者的电子健康档案数据对医疗知识图谱中任意两个项目节点之间的关联关系进行更新迭代，以完成对医疗知识图谱的修复，需要预先获取大量患者电子健康档案中的样本就诊数据及其所涉及的实际医疗项。

202、根据所述各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建所述每种关联关系对应的第二邻接矩阵。

对于本发明实施例，为了构建医疗知识图谱中每种关联关系对应的第一邻接矩阵，需要根据各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的原始邻接矩阵(第二邻接矩阵)，第二邻接矩阵的具体构建过程与步骤102中第二邻接矩阵的具体构建过程，完全相同，在此不再赘述。

203、基于所述第二邻接矩阵和第一初始图注意力网络，确定所述各个项目节点在所述每种关联关系下的第二嵌入向量。

对于本发明实施例，为了构建各个项目节点在每种关联关系下的第二嵌入向量，步骤203具体包括：确定所述各个项目节点对应的第一初始化向量，以及所述各个项目节点在所述第一初始图注意力网络中的第一权重；根据所述第二邻接矩阵，确定所述各个项目节点中目标项目节点对应的第一相邻项目节点；基于所述第一权重，将所述第一相邻项目节点对应的第一初始化向量加权求和，得到所述目标项目节点在所述每种关联关系下的第二嵌入向量。

具体地，首先针对每种关联关系，随机给定各个项目节点对应的第一初始化向量，以及各个项目节点对应的第一权重，得到第一初始图注意力网络，之后根据第二邻接矩阵，确定各个项目节目中任意一个项目节点(目标项目节点)的相邻项目节点(第一相邻项目节点)，例如，目标项目节点为项目节点i，由第r种关联关系对应的第二邻接矩阵Ar⁽⁰⁾，可知元素Ar⁽⁰⁾[i][j]和元素Ar⁽⁰⁾[i][m]为1，即说明项目节点i与项目节点j之间具有第r种关联关系，项目节点i与项目节点j直接相连，项目节点j是项目节点i的相邻节点，同理能够说明项目节点i与项目节点m之间具有第r种关联关系，项目节点i与项目节点m直接相连，项目节点m是项目节点i的相邻节点，即项目节点j和项目节点m是目标项目节点i的第一相邻项目节点，进一步地，确定项目节点j和项目节点m在第一初始图注意力网络中的第一权重，基于该第一权重，将项目节点j和项目节点m对应的第一初始化向量加权求和，得到目标项目节点i在第r种关联关系下的第二嵌入向量。由此按照上述方式能够确定各个项目节点中任意一个项目节点在每种关联关系下的第二嵌入向量。

204、构建所述每种关联关系对应的初始评分函数，并基于所述初始评分函数和所述第二嵌入向量，计算所述任意两个项目节点在所述每种关联关系下的关联评分。

对于本发明实施例，在确定任意一个项目节点在每种关联关系下的第二嵌入向量之后，针对每种关联关系，构建一个初始评分函数，通过该初始评分函数能够计算出任意两个项目节点在每种关联关系下的关联评分，该初始评分函数的输入为任意两个项目节点对应的第二嵌入向量，输出为任意两个项目节点在每种关联关系下的关联评分，如构建第r种关联关系对应的评分函数，具体公式如下：

s_r[i][j]＝sigmoid(W_r[v_i||v_j]

其中，s_r[i][j]代表项目节点i和项目节点j在第r种关联关系下的关联评分，该关联评分越高，说明项目节点i和项目节点j具有第r种关联关系的可能性越大，相反该关联评分越低，说明项目节点i和项目节点j具有第r种关联关系的可能性越小。此外，v_i和v_j分别代表项目节点i和项目节点j在第r种关联关系下的第二嵌入向量，Wr为第r种关联关系对应的评分函数中的权重参数，sigmoid为激活函数。由此利用每种关联关系对应的评分函数，能够计算出任意两个项目节点在每种关联关系下的关联评分，以便利用该关联评分，构建每种关联关系对应的第一邻接矩阵。

205、基于所述关联评分，构建所述每种关联关系对应的第一邻接矩阵。

对于本发明实施例，为了构建每种关联关系对应的第一邻接矩阵，步骤205具体包括：基于所述关联评分，构建所述每种关联关系对应的第三邻接矩阵；分别确定所述第二邻接矩阵和所述第三邻接矩阵对应的权重系数，基于所述权重系数，将所述第二邻接矩阵和所述第三邻接矩阵加权求和，得到所述每种关联关系对应的第一邻接矩阵。进一步地，所述基于所述关联评分，构建所述每种关联关系对应的第三邻接矩阵，包括：若所述关联评分大于预设关联评分，则确定所述第三邻接矩阵在相应位置处的元素为所述关联评分；若所述关联评分小于或者等于预设评分，则确定所述第三邻接矩阵在相应位置处的元素为0；基于所述相应位置处的元素，构建所述每种关联关系对应的第三邻接矩阵。

具体地，在计算出任意两个项目节点在每种关联关系下的关联评分之后，针对每种关联关系，构建一个第三邻接矩阵，具体构建过程如下：

其中，Ar⁽¹⁾代表第r种关联关系对应的第三邻接矩阵，thr为预设关联评分，可以根据实际的业务需求进行设定，S_ij代表项目节点i和项目节点j在第r种关联关系下的关联评分，如果该关联评分S_ij大于预设关联评分，则确定元素Ar⁽¹⁾[i][j]为关联评分S_ij，如果该关联评分分S_ij小于或者等于预设关联评分，则确定元素Ar⁽¹⁾[i][j]为0，由此能够构建每种关联关系对应的第三邻接矩阵。

进一步地，在构建每种关联关系对应的第三邻接矩阵Ar⁽¹⁾之后，分别确定第二邻接矩阵Ar⁽⁰⁾和第三邻接矩阵Ar⁽¹⁾对应的权重系数，该权重系数可以是预先定好的，也可以是通过训练得到的，之后基于该权重系数，将每种关联关系对应的第二邻接矩阵和第三邻接矩阵加权求和，得到每种关联关系对应的第一邻接矩阵，具体公式如下：

Ar^(-)＝δAr⁽⁰⁾+(1-δ)Ar⁽¹⁾

其中，Ar⁽⁰⁾、Ar⁽¹⁾和Ar^(-)分别为每种关联关系对应的第二邻接矩阵、第三邻接矩阵和第一邻接矩阵，δ和(1-δ)为第二邻接矩阵和第三邻接矩阵对应的权重系数。由此按照上述公式能够得到每种关联关系对应的第一邻接矩阵。

206、基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项。

对于本发明实施例，为了在每种关联关系下的第一嵌入向量和预测医疗项，步骤206具体包括：确定所述各个项目节点对应的第二初始化向量，以及所述各个项目节点在第二初始图注意力网络中的第二权重；基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点的第二相邻项目节点；基于所述第二权重，将所述第二相邻项目节点对应的第二初始化向量加权求和，得到所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量；若所述实际医疗项对应多个项目节点，则将所述多个项目节点分别对应的第一嵌入向量进行叠加，得到所述患者在所述每种关联关系下的特征向量；将所述特征向量输入至初始多层感知器中进行预测，得到所述患者在所述每种关联关系下的预测医疗项。

具体地，针对每种关联关系，随机给定各个项目节点对应的第二初始化向量和第二权重，得到第二初始化图注意力网络，进一步地，基于构建的第一邻接矩阵，确定与实际医疗项目对应的项目节点相邻的项目节点(第二相邻项目节点)，例如，实际医疗项目对应的项目节点分别为项目节点i和项目节点j，通过第r种关联关系对应的第一邻接矩阵，确定元素Ar^(-)[i][m]和元素Ar^(-)[i][k]大于预设阈值，即项目节点m和项目节点k分别与项目节点i之间具有第r种类型的关联关系，项目节点m和项目节点k分别与项目节点i相连接，项目节点m和项目节点k是项目节点i的第二相邻项目节点，同理可以确定项目节点s和项目节点n是项目节点j的第二相邻项目节点。进一步地，确定项目节点m和项目节点k在第二初始图注意力网络中的第二权重，基于该第二权重，将项目节点m和项目节点k分别对应的第二初始化向量加权，得到项目节点i在第r种关联关系下的第一嵌入向量，同理可以得到项目节点j在第r种关联关系下的第一嵌入向量，之后将项目节点i和项目节点j分别对应的第一嵌入向量进行叠加，得到患者在在第r种关联关系下的特征向量。

进一步地，针对每种关联关系，构建一个初始多层感知器，将患者在每种关联关系下的特征向量输入至相应的初始多层感知器中，得到所述患者在所述每种关联关系下的预测医疗项。具体地，在进行预测的过程中，将患者对应的特征向量通过初始多层感知器的输入层输入至隐藏层，通过该隐藏层输出的结果为：

f(W₁x+b₁)

其中，x为患者在每种关联关系下的特征向量，W1为隐藏层的权重，也是预设多层感知器的连接系数，b1为隐藏层的偏置系数，f函数通常可以采用sigmoid函数或者tanh函数，如下所示：

sigmoid(x)＝1/(1+e^-x)

tanh(x)＝(e^x-e^-x)/(e_x+e^-x)

进一步地，再将该结果输入至输出层，通过该输出层进行预测，得到的预测结果为：

softmax(W₂f(W₁x+b₁)+b₂)

其中，W2为输出层的权重系数，b2为输出层的偏置系数，通过初始多层感知器的输出层能够输出患者的预测医疗项。

207、基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵。

对于本发明实施例，为了确定每种关联关系对应的迭代后的第一邻接矩阵，步骤207具体包括：基于所述预测医疗项和所述实际医疗项，构建损失函数；基于所述损失函数，共同对每种关联关系对应的所述第一初始图注意力网络、所述第二初始图注意力网络、所述初始评分函数和所述初始多层感知器进行训练，构建每种关联关系对应的第一图注意力网络和评分函数；基于所述第一图注意力网络和所述评分函数，确定迭代后的第一邻接矩阵。

具体地，根据预测医疗项和实际医疗项，构建每种关联关系对应的损失函数，基于每种关联关系对应的损失函数，共同对第一初始图注意力网络、第二初始图注意力网络、初始评分函数和初始多层感知器进行训练，进而能够得到每种关联关系对应的迭代后的第一邻接矩阵。

208、基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。

对于本发明实施例，为了对医疗知识图谱进行修复，步骤208具体包括：确定所述第一邻接矩阵中任意元素对应的两个项目节点；若所述任意元素大于预设阈值，则在所述医疗知识图谱中增加或者保留所述两个项目节点之间相应类型的关联关系；若所述任意元素小于或者等于预设阈值，则在所述医疗知识图谱中移除所述两个项目节点之间相应类型的关联关系。

例如，针对第r种关联关系对应的迭代后的第一邻接矩阵，如果元素Ar^(-)[i][j]大于预设阈值，则说明第i个项目节点和第j个项目节点之间具有第r种类型的关联关系，因此在医疗知识图谱中保留或者增加第i个项目节点和第j个项目节点之间的第r种关联关系；如果元素Ar^(-)[i][j]小于或者等于预设阈值，则说明第i个项目节点和第j个项目节点之间不具有第r种关联关系，因此在医疗知识图谱中移除第i个项目节点和第j个项目节点之间的第r种关联关系，由此根据迭代后的第一邻接矩阵，能够实现对医疗知识图谱的修复。

本发明实施例提供的另一种医疗知识图谱的修复方法，与目前基于医疗知识图谱自身的信息进行图谱修复的方式相比，本发明能够获取患者的样本就诊数据中所涉及的实际医疗项；并根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；与此同时，基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；并基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；最终基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复，由此通过引入大量患者的样本就诊数据(电子健康档案数据)对每种关联关系的第一邻接矩阵进行迭代训练，能够全面地找出医疗知识图谱中缺失的关联关系或者错误的关联关系，从而基于迭代后的第一邻接矩阵对医疗知识图谱进行修复，能够提高医疗知识图谱的修复精度，与此同时，由于将第一邻接矩阵的迭代过程与预测任务相结合，因此能够保证修复后的医疗知识图谱对于预测任务有切实的帮助，能够提高预测任务的预测精度。

进一步地，作为图1的具体实现，本发明实施例提供了一种医疗知识图谱的修复装置，如图3所示，所述装置包括：获取单元31、构建单元32、预测单元33、确定单元34和修复单元35。

所述获取单元31，可以用于获取患者的样本就诊数据中所涉及的实际医疗项。

所述构建单元32，可以用于根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵。

所述预测单元33，可以用于基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项。

所述确定单元34，可以用于基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵。

所述修复单元35，可以用于基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。

在具体应用场景中，为了构建每种关联关系对应的第一邻接矩阵，所述构建单元32，如图4所示，包括：第一构建模块321、第一确定模块322和计算模块323。

所述第一构建模块321，可以用于根据所述各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建所述每种关联关系对应的第二邻接矩阵；

所述第一确定模块322，可以用于基于所述第二邻接矩阵和第一初始图注意力网络，确定所述各个项目节点在所述每种关联关系下的第二嵌入向量。

所述计算模块323，可以用于构建所述每种关联关系对应的初始评分函数，并基于所述初始评分函数和所述第二嵌入向量，计算所述任意两个项目节点在所述每种关联关系下的关联评分。

所述第一构建模块321，还可以用于基于所述关联评分，构建所述每种关联关系对应的第一邻接矩阵。

进一步地，为了确定所述各个项目节点在所述每种关联关系下的第二嵌入向量，第一确定模块322，包括：确定子模块和求和子模块。

所述确定子模块，可以用于确定所述各个项目节点对应的第一初始化向量，以及所述各个项目节点在所述第一初始图注意力网络中的第一权重。

所述确定子模块，还可以用于根据所述第二邻接矩阵，确定所述各个项目节点中目标项目节点对应的第一相邻项目节点。

所述求和子模块，可以用于基于所述第一权重，将所述第一相邻项目节点对应的第一初始化向量加权求和，得到所述目标项目节点在所述每种关联关系下的第二嵌入向量。

进一步地，为了构建所述每种关联关系对应的第一邻接矩阵，所述第一构建模块321，包括：构建子模块和求和子模块。

所述构建子模块，可以用于基于所述关联评分，构建所述每种关联关系对应的第三邻接矩阵。

所述求和子模块，可以用于分别确定所述第二邻接矩阵和所述第三邻接矩阵对应的权重系数，基于所述权重系数，将所述第二邻接矩阵和所述第三邻接矩阵加权求和，得到所述每种关联关系对应的第一邻接矩阵。

进一步地，为了构建每种关联关系对应的第三邻接矩阵，所述构建子模块，具体可以用于若所述关联评分大于预设关联评分，则确定所述第三邻接矩阵在相应位置处的元素为所述关联评分；若所述关联评分小于或者等于预设评分，则确定所述第三邻接矩阵在相应位置处的元素为0；基于所述相应位置处的元素，构建所述每种关联关系对应的第三邻接矩阵。

在具体应用场景中，为了，预测所述患者在所述每种关联关系下的预测医疗项，所述预测单元33，包括：第二确定模块331、求和模块332、叠加模块333和预测模块334。

所述第二确定模块331，可以用于确定所述各个项目节点对应的第二初始化向量，以及所述各个项目节点在第二初始图注意力网络中的第二权重。

所述第二确定模块331，还可以用于基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点的第二相邻项目节点。

所述求和模块332，可以用于基于所述第二权重，将所述第二相邻项目节点对应的第二初始化向量加权求和，得到所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量。

所述叠加模块333，可以用于若所述实际医疗项对应多个项目节点，则将所述多个项目节点分别对应的第一嵌入向量进行叠加，得到所述患者在所述每种关联关系下的特征向量。

所述预测模块334，可以用于将所述特征向量输入至初始多层感知器中进行预测，得到所述患者在所述每种关联关系下的预测医疗项。

在具体应用场景中，为了确定所述每种关联关系对应的迭代后的第一邻接矩阵，所述确定单元34，包括：第二构建模块341和第三确定模块342。

所述第二构建模块341，可以用于基于所述预测医疗项和所述实际医疗项，构建损失函数。

所述第二构建模块341，还可以用于基于所述损失函数，共同对每种关联关系对应的所述第一初始图注意力网络、所述第二初始图注意力网络、所述初始评分函数和所述初始多层感知器进行训练，构建每种关联关系对应的第一图注意力网络和评分函数。

所述第三确定模块342，可以用于基于所述第一图注意力网络和所述评分函数，确定迭代后的第一邻接矩阵。

在具体应用场景中，为了对医疗知识图谱进行修复，所述修复单元35，包括：第四确定模块351、增加模块352和移除模块353。

所述第四确定模块351，可以用于确定所述第一邻接矩阵中任意元素对应的两个项目节点。

所述增加模块352，可以用于若所述任意元素大于预设阈值，则在所述医疗知识图谱中增加或者保留所述两个项目节点之间相应类型的关联关系。

所述移除模块353，可以用于若所述任意元素小于或者等于预设阈值，则在所述医疗知识图谱中移除所述两个项目节点之间相应类型的关联关系。

需要说明的是，本发明实施例提供的一种医疗知识图谱的修复装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取患者的样本就诊数据中所涉及的实际医疗项；根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。

基于上述如图1所示方法和如图3所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤：获取患者的样本就诊数据中所涉及的实际医疗项；根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复。

通过本发明的技术方案，能够获取患者的样本就诊数据中所涉及的实际医疗项；并根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第一邻接矩阵；与此同时，基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点在所述每种关联关系下的第一嵌入向量，并基于所述第一嵌入向量，预测所述患者在所述每种关联关系下的预测医疗项；并基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵；最终基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复，由此通过引入大量患者的样本就诊数据(电子健康档案数据)对每种关联关系的第一邻接矩阵进行迭代训练，能够全面地找出医疗知识图谱中缺失的关联关系或者错误的关联关系，从而基于迭代后的第一邻接矩阵对医疗知识图谱进行修复，能够提高医疗知识图谱的修复精度，与此同时，由于将第一邻接矩阵的迭代过程与预测任务相结合，因此能够保证修复后的医疗知识图谱对于预测任务有切实的帮助，能够提高预测任务的预测精度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种医疗知识图谱的修复方法，其特征在于，包括：

获取患者的样本就诊数据中所涉及的实际医疗项；

根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第二邻接矩阵；

确定各个项目节点对应的第一初始化向量，以及各个项目节点在第一初始图注意力网络中的第一权重；根据所述第二邻接矩阵，确定各个项目节点中目标项目节点对应的第一相邻项目节点；基于所述第一权重，将所述第一相邻项目节点对应的第一初始化向量加权求和，得到所述目标项目节点在每种关联关系下的第二嵌入向量；

构建每种关联关系对应的初始评分函数，并基于所述初始评分函数和所述第二嵌入向量，计算任意两个项目节点在每种关联关系下的关联评分；基于所述关联评分，构建每种关联关系对应的第一邻接矩阵；

确定各个项目节点对应的第二初始化向量，以及各个项目节点在第二初始图注意力网络中的第二权重；基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点的第二相邻项目节点；基于所述第二权重，将所述第二相邻项目节点对应的第二初始化向量加权求和，得到所述实际医疗项对应的项目节点在每种关联关系下的第一嵌入向量；若所述实际医疗项对应多个项目节点，则将所述多个项目节点分别对应的第一嵌入向量进行叠加，得到所述患者在每种关联关系下的特征向量；将所述特征向量输入至初始多层感知器中进行预测，得到所述患者在每种关联关系下的预测医疗项；

2.根据权利要求1所述的方法，其特征在于，所述基于所述关联评分，构建所述每种关联关系对应的第一邻接矩阵，包括：

基于所述关联评分，构建所述每种关联关系对应的第三邻接矩阵；

分别确定所述第二邻接矩阵和所述第三邻接矩阵对应的权重系数，基于所述权重系数，将所述第二邻接矩阵和所述第三邻接矩阵加权求和，得到所述每种关联关系对应的第一邻接矩阵。

3.根据权利要求2所述的方法，其特征在于，所述基于所述关联评分，构建所述每种关联关系对应的第三邻接矩阵，包括：

若所述关联评分大于预设关联评分，则确定所述第三邻接矩阵在相应位置处的元素为所述关联评分；

若所述关联评分小于或者等于预设评分，则确定所述第三邻接矩阵在相应位置处的元素为0；

基于所述相应位置处的元素，构建所述每种关联关系对应的第三邻接矩阵。

4.根据权利要求1所述的方法，其特征在于，所述基于所述预测医疗项和所述实际医疗项对所述第一邻接矩阵进行迭代，确定所述每种关联关系对应的迭代后的第一邻接矩阵，包括：

基于所述预测医疗项和所述实际医疗项，构建损失函数；

基于所述损失函数，共同对每种关联关系对应的所述第一初始图注意力网络、所述第二初始图注意力网络、所述初始评分函数和所述初始多层感知器进行训练，构建每种关联关系对应的第一图注意力网络和评分函数；

基于所述第一图注意力网络和所述评分函数，确定迭代后的第一邻接矩阵；

所述基于所述迭代后的第一邻接矩阵，对所述医疗知识图谱进行修复，包括：

确定所述第一邻接矩阵中任意元素对应的两个项目节点；

若所述任意元素大于预设阈值，则在所述医疗知识图谱中增加或者保留所述两个项目节点之间相应类型的关联关系；

若所述任意元素小于或者等于预设阈值，则在所述医疗知识图谱中移除所述两个项目节点之间相应类型的关联关系。

5.一种医疗知识图谱的修复装置，其特征在于，包括：

构建单元，用于根据医疗知识图谱的各个项目节点中任意两个项目节点之间是否具有相应类型的关联关系，构建每种关联关系对应的第二邻接矩阵；确定各个项目节点对应的第一初始化向量，以及各个项目节点在第一初始图注意力网络中的第一权重；根据所述第二邻接矩阵，确定各个项目节点中目标项目节点对应的第一相邻项目节点；基于所述第一权重，将所述第一相邻项目节点对应的第一初始化向量加权求和，得到所述目标项目节点在每种关联关系下的第二嵌入向量；构建每种关联关系对应的初始评分函数，并基于所述初始评分函数和所述第二嵌入向量，计算任意两个项目节点在每种关联关系下的关联评分；基于所述关联评分，构建每种关联关系对应的第一邻接矩阵；

预测单元，用于确定各个项目节点对应的第二初始化向量，以及各个项目节点在第二初始图注意力网络中的第二权重；基于所述第一邻接矩阵，确定所述实际医疗项对应的项目节点的第二相邻项目节点；基于所述第二权重，将所述第二相邻项目节点对应的第二初始化向量加权求和，得到所述实际医疗项对应的项目节点在每种关联关系下的第一嵌入向量；若所述实际医疗项对应多个项目节点，则将所述多个项目节点分别对应的第一嵌入向量进行叠加，得到所述患者在每种关联关系下的特征向量；将所述特征向量输入至初始多层感知器中进行预测，得到所述患者在每种关联关系下的预测医疗项；

6.根据权利要求5所述的装置，其特征在于，所述构建单元，包括：构建子模块和求和子模块；

所述构建子模块，用于基于所述关联评分，构建所述每种关联关系对应的第三邻接矩阵；

所述求和子模块，用于分别确定所述第二邻接矩阵和所述第三邻接矩阵对应的权重系数，基于所述权重系数，将所述第二邻接矩阵和所述第三邻接矩阵加权求和，得到所述每种关联关系对应的第一邻接矩阵。

7.根据权利要求6所述的装置，其特征在于，所述构建子模块，具体用于若所述关联评分大于预设关联评分，则确定所述第三邻接矩阵在相应位置处的元素为所述关联评分；若所述关联评分小于或者等于预设评分，则确定所述第三邻接矩阵在相应位置处的元素为0；基于所述相应位置处的元素，构建所述每种关联关系对应的第三邻接矩阵。

8.根据权利要求6所述的装置，其特征在于，所述确定单元，包括：第二构建模块和第三确定模块；

所述第二构建模块，用于基于所述预测医疗项和所述实际医疗项，构建损失函数；基于所述损失函数，共同对每种关联关系对应的所述第一初始图注意力网络、所述第二初始图注意力网络、所述初始评分函数和所述初始多层感知器进行训练，构建每种关联关系对应的第一图注意力网络和评分函数；

所述第三确定模块，用于基于所述第一图注意力网络和所述评分函数，确定迭代后的第一邻接矩阵；

所述修复单元，包括：第四确定模块、增加模块和移除模块；

所述第四确定模块，用于确定所述第一邻接矩阵中任意元素对应的两个项目节点；

所述增加模块，用于若所述任意元素大于预设阈值，则在所述医疗知识图谱中增加或者保留所述两个项目节点之间相应类型的关联关系；

所述移除模块，用于若所述任意元素小于或者等于预设阈值，则在所述医疗知识图谱中移除所述两个项目节点之间相应类型的关联关系。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。