CN115862848A

CN115862848A - 基于临床数据筛选和医学知识图谱的疾病预测系统和装置

Info

Publication number: CN115862848A
Application number: CN202310116468.6A
Authority: CN
Inventors: 李劲松; 王宇清; 池胜强; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-03-28
Anticipated expiration: 2043-02-15
Also published as: CN115862848B

Abstract

本发明公开了一种基于临床数据筛选和医学知识图谱的疾病预测系统及装置，包括初始化模块、医学知识图谱边权重训练模块、疾病诊断预测模块和解释模块；初始化模块：用于构建医学知识图谱以及提取并处理临床数据；所述初始化模块包括：医学知识图谱构建子模块和临床数据提取与处理子模块；医学知识图谱边权重训练模块包括医学知识图谱边权重训练网络、图计算诊断预测子模块和数据筛选子模块针对基于规则的疾病诊断预测系统的无法量化症状与疾病诊断关系、查全率差的问题，本发明利用临床数据中症状与疾病诊断的共现信息，训练医学知识图谱边权重。本系统在预测疾病诊断结果时，可以定量地展示症状对疾病诊断的影响。

Description

基于临床数据筛选和医学知识图谱的疾病预测系统和装置

技术领域

本发明涉及数据处理及深度训练技术领域，特别涉及一种基于临床数据筛选和医学知识图谱的疾病预测系统和装置。

背景技术

疾病诊断预测系统可以分为基于规则的疾病诊断预测系统和基于模型的疾病诊断预测系统。基于规则的疾病诊断预测系统利用疾病指南、临床医学知识库等医学知识，构建疾病诊断的规则。在预测疾病诊断时，基于规则的疾病诊断预测系统会将输入的症状与所有疾病诊断的规则进行比对，若输入的症状符合某条疾病诊断的规则，则将该疾病诊断输出。基于模型的疾病诊断预测系统的核心在于疾病诊断预测模型。基于模型的疾病诊断预测系统利用单次就诊中的症状，结合当次就诊对应的诊断，训练疾病诊断预测模型。训练完成后，将症状输入到疾病诊断预测模型中，就可以得到疾病诊断的预测结果。现有的疾病诊断预测模型使用逻辑回归模型、随机森林、神经网络、概率图模型、图神经网络等模型对输入特征进行训练与预测（例如专利号为“CN202011479766.4”的发明专利“基于病理模式与注意力机制的可解释疾病风险分析系统”）。

医学知识图谱是一个无权重图，包含症状与疾病的关系。医学知识图谱可以用于辅助训练疾病诊断预测模型。专利号为“CN202111609275.1”的发明专利“一种基于图神经网络的疾病诊断预测系统”利用临床数据构建包含“患者-症状-诊断”关系图谱，融合了包含“症状-疾病”的医学知识图谱，构成总的图谱，训练卷积图神经网络作为疾病诊断预测模型。此外，专利号为“CN201610658754.5”的发明专利“一种基于智能推理的辅助疾病诊断的系统”中利用医学知识图谱构建规则库，在输入症状后计算病历库中的信息匹配度和规则库中的规则覆盖率，对信息匹配度和规则覆盖率加权求和并排序，得到疾病诊断的预测结果。

基于规则的疾病诊断预测系统可以给出预测的疾病诊断的解释，但是由于利用的是无权重的医学知识图谱，所以无法给出每种症状对疾病诊断影响的量化程度。此外，疾病诊断规则大多较为简单且覆盖的样本量有限，病因复杂的疾病难以被疾病诊断规则筛选出，所以基于规则的疾病诊断预测系统的查全率较低。

基于模型的疾病诊断预测系统在利用医学知识图谱进行辅助诊断的时候可以达到较高的准确率，但是疾病诊断预测模型本身是一个黑箱，无法获得输入的症状和输出的疾病诊断预测之间的关系。在实际辅助诊断场景中，基于模型的疾病诊断预测系统的可靠性会被质疑。

专利号为“CN201610658754.5”的发明专利“一种基于智能推理的辅助疾病诊断的系统”中使用的方法，需要对比输入症状和病历库的信息匹配度。这种方法对病历库和临床数据质量的依赖性很高，无法用于临床数据量较少或临床数据质量较差的医疗机构，因此泛化性较差。

发明内容

本发明的目的在于提供一种基于临床数据筛选和医学知识图谱的疾病预测系统和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种基于临床数据筛选和医学知识图谱的疾病预测系统，包括初始化模块、医学知识图谱边权重训练模块、疾病诊断预测模块和解释模块；

初始化模块：用于构建医学知识图谱以及提取并处理临床数据；所述初始化模块包括：医学知识图谱构建子模块：用于根据医学知识源中概念、术语和关系构建医学知识图谱；临床数据提取与处理子模块：用于从电子病历数据库中提取并处理每次就诊对应的疾病诊断、实验室检查结果和病历文本信息；

医学知识图谱边权重训练模块包括医学知识图谱边权重训练网络、图计算诊断预测子模块和数据筛选子模块；医学知识图谱边权重训练网络：用于利用临床数据中症状与疾病诊断的共现信息，训练医学知识图谱边权重；图计算诊断预测子模块：用于根据临床数据里每次就诊中存在的症状来计算每种疾病诊断的置信度；数据筛选子模块：用于根据医学知识图谱边权重评估临床数据的质量，对临床数据进行筛选，更新训练集；

疾病诊断预测模块：用于利用输入该模块的新的就诊中存在的症状和医学知识图谱边权重，计算每种疾病诊断的置信度，并根据置信度的排序输出每种疾病的诊断的名称和置信度；

解释模块：用于展示就诊中的一种或多种症状对应的症状节点在医学知识图谱上将原始症状影响力值传播到目标疾病节点的传播路径，以及传播路径上各个节点的症状影响力值根据医学知识图谱边权重所改变的情况。

作为优选的，所述医学知识图谱边权重训练网络由三层网络组成，在训练迭代过程中，第一层网络用于更新节点的嵌入表示矩阵，第二层网络用于更新边的嵌入表示矩阵，第三层网络用于再次更新节点的嵌入表示矩阵，完成节点的嵌入表示矩阵的更新以后，利用疾病节点的嵌入表示预测疾病节点的标签，根据疾病节点的标签预测结果和疾病节点的真实标签计算医学知识图谱损失，同时利用边的嵌入表示计算得到医学知识图谱边权重。

作为优选的，所述医学知识图谱构建子模块中所述医学知识源包括SNOMED CT、OMAHA类别的医学术语集，以及医学指南；所述构建的医学知识图谱中的节点分为疾病节点和症状节点，每一个疾病节点代表一种疾病诊断；每一个症状节点代表一种症状，症状包括症状术语和满足标准的实验室检验结果；医学知识图谱中的节点由无权重的边连接。

作为优选的，所述临床数据提取与处理子模块中临床数据包括每次就诊对应的疾病诊断、实验室检查结果和病历文本信息；提取与处理临床数据的具体操作流程为：首先对病历文本进行分词、术语提取、术语映射操作，得到症状术语；然后保留医学知识图谱疾病节点和症状节点对应的疾病诊断、实验室检查结果和症状术语。

作为优选的，所述医学知识图谱边权重训练模块执行的具体子步骤如下：

（1）、构建医学知识图谱的节点邻接矩阵和边邻接矩阵；

（2）、根据临床数据计算节点特征矩阵和边特征矩阵；

（3）、初始化医学知识图谱边权重训练网络；

（4）、医学知识图谱边权重训练网络前向传播，更新节点和边的嵌入表示矩阵；

（5）、根据边的嵌入表示更新医学知识图谱边权重，预测临床数据中每次就诊的每种诊断的置信度；

（6）、判断是否达到迭代轮次上限，若达到上限，完成医学知识图谱边权重训练网络的训练，若未达到上限，进入（7）中；

（7）、计算模型总损失，医学知识图谱边权重训练网络反向传播，更新权重矩阵和权重向量；

（8）、更新所有就诊的数据质量系数，重新筛选就诊作为训练集，并返回至（4）中。

作为优选的，所述医学知识图谱边权重训练模块执行每轮迭代中，利用Adam优化器进行反向传播，更新权重矩阵和权重向量,在训练完成以后，将此次训练得到的医学知识图谱边权重进行保存。

作为优选的，图计算诊断预测子模块中根据临床数据里每次就诊中存在的症状来计算每种疾病诊断的置信度的具体操作流程如下：

（1）首先将医学知识图谱中单次就诊中的单个症状对应的症状节点的症状影响力值设置为1，其他节点的症状影响力值设置为0；

（2）利用广度优先搜索原理将此症状节点的症状影响力值传播到其他节点上，通过医学知识图谱边权重更新其他症状节点的症状影响力值，直至所有节点的症状影响力值都不为0；

（3）根据上述步骤对此次就诊中的每个症状对应的症状节点进行症状影响力值传播操作，得到所有疾病节点的症状影响力值的累加和；

（4）按照疾病节点的顺序，取每个疾病节点的症状影响力值的累加和，作为该疾病诊断的置信度，构建此次就诊的疾病诊断预测。

作为优选的，所述疾病诊断预测模块的具体操作流程为：在对新的就诊进行疾病诊断预测时，根据新的就诊中存在的症状和医学知识图谱边权重，计算每种疾病诊断的置信度，对每种疾病诊断的置信度降序排序后按顺序输出每种疾病诊断的名称以及置信度。

本发明公开一种基于临床数据筛选和医学知识图谱的疾病预测装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于执行上述基于临床数据筛选和医学知识图谱的疾病预测系统中任一所述模块操作。

本发明的有益效果：

（1）针对基于规则的疾病诊断预测系统的无法量化症状与疾病诊断关系、查全率差的问题，本发明利用临床数据中症状与疾病诊断的共现信息，训练医学知识图谱边权重。本系统在预测疾病诊断时，可以定量地展示症状对疾病诊断的影响。

（2）针对基于模型的疾病诊断预测系统无法获得输入的症状和输出的疾病诊断预测之间的关系的问题，本发明的解释模块可以展示输入的症状对应的症状节点在医学知识图谱上将症状影响力值传播到目标疾病节点的路径，以及传播路径上各个节点的症状影响力值随医学知识图谱边权重改变的情况，从而给输出的疾病诊断预测提供解释，使得本发明在真实世界辅助诊断场景中更具有可靠性。

（3）针对现有技术《一种基于智能推理的辅助疾病诊断的系统》的泛化性差，无法用于临床数据量较少或临床数据质量较差的医疗机构的问题，本发明在训练医学知识图谱边权重的过程中使用数据筛选子模块，根据医学知识图谱的结构和医学知识图谱边权重对参与训练的临床数据进行筛选，使系统推荐的疾病诊断更准确。同时，本发明设计的疾病预测系统在一家医疗机构中完成医学知识图谱边权重训练以后，只需保存医学知识图谱的结构和医学知识图谱边权重，就可以将疾病诊断预测模块和解释模块部署到临床数据量较少或临床数据质量较差的医疗机构，具有较强的泛化性。

附图说明

图1是本发明实施例的系统模块图；

图2是本发明实施例医学知识图谱边权重训练模块流程图；

图3是本发明实施例权重矩阵和权重向量的关系示意图；

图4是本发明实施例单个症状节点对目标疾病节点的影响示例图；

图5是本发明实施例多个症状节点对目标疾病节点的影响示例图；

图6是本发明实施例的装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明实施例提供一种基于临床数据筛选和医学知识图谱的疾病预测系统，如图1所示，所述系统由初始化模块、医学知识图谱边权重训练模块、疾病诊断预测模块、解释模块组成。

1、初始化模块：用于构建医学知识图谱以及提取并处理临床数据；所述初始化模块包括：医学知识图谱构建子模块和临床数据提取与处理子模块。

1.1、医学知识图谱构建子模块：

采用医学知识源中概念、术语和关系构建医学知识图谱。医学知识源可以是SNOMED CT、OMAHA等医学术语集，也可以是医学指南。医学知识图谱中的节点分为疾病节点和症状节点。每一个疾病节点代表一种疾病诊断；每一个症状节点代表一种症状，症状包括症状术语和满足某种标准的实验室检验结果。医学知识图谱中的节点由无权重的边连接。

设医学知识图谱的疾病节点集合记为

，其中/>

为医学知识图谱中疾病节点的数量。设医学知识图谱的症状节点集合记为/>

，其中

为医学知识图谱中症状节点的数量。医学知识图谱的节点集合记为

，其中包含节点总数为/>

。

设医学知识图谱的边集合记为

，其中/>

为医学知识图谱的边的数量。

医学知识图谱的节点邻接矩阵

的大小为/>

。/>

中第/>

行第j列元素的值记为/>

，若 />

中第/>

个节点与第j个节点相连，则/>

，否则/>

。/>

的拉普拉斯正则的结果记为/>

。其中/>

是一个大小为/>

的单位矩阵；

是/>

的度矩阵。

医学知识图谱的边邻接矩阵

的大小为/>

。/>

中第/>

行第j列元素的值记为

，若/>

中第/>

条边与第j条边连接着同一个节点，则/>

，否则/>

。/>

的拉普拉斯正则的结果记为/>

。其中/>

是一个大小为/>

的单位矩阵；/>

是/>

的度矩阵。

二元转换矩阵

的大小为/>

，/>

中第/>

行第j列元素的值记为/>

，若/>

中第j条边连接着/>

中第/>

个节点，则/>

，否则/>

。

疾病节点是具有标签的，每个疾病节点的标签是一个长度为

的向量，向量中的每一位代表一种疾病。疾病节点/>

的标签的第/>

位的值为1，其余位置的值为0。疾病节点/>

的标签记为/>

，/>

中第j个元素的值记为/>

。

1.2、临床数据提取与处理子模块：

从电子病历数据库中提取出每次就诊对应的疾病诊断、实验室检查结果和病历文本信息。实验室检查结果是指血常规，尿常规，便常规，血气分析，血电解质，肝功能，肾功能，血脂，心肌酶，甲状腺功能，血糖等项目的内容、性质、浓度、数量等特性。

首先对病历文本进行分词、术语提取、术语映射操作，得到症状术语。然后从保留医学知识图谱疾病节点和症状节点对应的疾病诊断、实验室检查结果和症状术语。

根据提取到的临床数据计算节点特征矩阵、边特征矩阵和每次就诊对应的标签。节点特征矩阵

的大小为/>

，/>

中第/>

行第j列元素的值记为/>

。/>

，

的值为临床数据中/>

与/>

出现在同一次就诊的数量。然后，/>

会进行归一化处理。

边特征矩阵

的大小为/>

，/>

中第/>

行第j列元素的值记为/>

。若边/>

连接着/>

和/>

两个节点，则/>

。然后，/>

会进行归一化处理。

临床数据中就诊集合记为

，就诊总次数为/>

。每次就诊包含/>

中若干个症状和/>

中若干个疾病诊断。/>

的标签记为/>

，/>

中第j个元素的值记为/>

。若在/>

就诊中，获得了疾病节点/>

对应的疾病诊断，则/>

，否则/>

。

2、医学知识图谱边权重训练模块由医学知识图谱边权重训练网络、图计算诊断预测子模块、数据筛选子模块构成。医学知识图谱边权重训练网络的作用是利用临床数据中症状与疾病诊断的共现信息，训练医学知识图谱边权重。图计算诊断预测子模块的作用是根据临床数据里每次就诊中存在的症状来计算对应的每种疾病诊断的置信度。数据筛选子模块的作用是根据医学知识图谱边权重评估临床数据的质量，对临床数据进行筛选，更新训练集。

医学知识图谱边权重训练模块的实现流程如图2所示。

2.1、医学知识图谱边权重训练网络：

医学知识图谱边权重训练网络由三层网络组成。记第

轮迭代完成后的节点的嵌入表示矩阵为/>

，大小为/>

，每一个节点的嵌入表示都是一个长度为/>

的向量；第/>

轮迭代完成后的边的嵌入表示矩阵为/>

，大小为/>

，每一条边的嵌入表示都是一个长度为/>

的向量。

在模型初始化阶段，设

，/>

。随机初始化/>

、/>

和/>

为长度为/>

的可学习的权重向量；/>

和/>

为大小为/>

的可学习的权重矩阵；/>

为大小为/>

的可学习的权重矩阵。

在第

轮迭代过程中，第一层网络更新节点的嵌入表示矩阵。计算公式为

。其中/>

表示将一个向量转化成一个对角方阵的操作；/>

代表/>

的转置；/>

表示两个矩阵对应位置元素相乘的操作；/>

为激活函数。第二层网络更新边的嵌入表示矩阵。计算公式为/>

。第三层网络再次更新节点的嵌入表示矩阵。计算公式为/>

。

完成节点的嵌入表示矩阵的更新以后，利用疾病节点的嵌入表示预测疾病节点的标签，计算公式为

。其中/>

是疾病节点/>

的嵌入表示，/>

是一个长度为

的向量，每一位代表一种疾病的预测值。/>

中第j个元素的值记为/>

。/>

会进行归一化处理。

然后，计算得到医学知识图谱边权重

，计算公式为/>

。其中/>

是边/>

的嵌入表示。/>

是边/>

的权重,/>

，/>

会被用于图计算诊断预测子模块。

这一部分的损失函数称为医学知识图谱损失，定义为：

。

2.2、图计算诊断预测子模块：

图计算诊断预测子模块的输入是单次就诊中存在的症状和医学知识图谱边权重。就诊中出现的每种症状都会对疾病诊断预测结果造成影响，本发明中将这种影响量化表示，并称之为症状影响力值。

记训练集中的就诊为

，共有/>

个就诊在训练集中。对就诊/>

，假设存在/>

种症状 />

。对于其中的/>

，首先将医学知识图谱中/>

节点的症状影响力值设置为1，记/>

，其他节点的症状影响力值设置为0。然后利用广度优先搜索原理将

节点的症状影响力值传播到其他节点上。传播过程中，若节点/>

的症状影响力值为/>

，节点/>

是/>

的相邻节点，且/>

，连接/>

和/>

的边的权重为/>

，那么/>

的症状影响力值将被更新成/>

。/>

节点的症状影响力值传播直到所有节点的症状影响力值都不为0。

对

种症状都独立地进行上述的症状影响力值传播操作，最后节点/>

的症状影响力值的累加和记为/>

。取所有疾病节点的症状影响力值的累加和，按照疾病节点的顺序，构成/>

的预测/>

。/>

中第j个元素的值记为/>

。/>

会进行归一化处理。/>

中各个元素的数值为就诊/>

中每种疾病诊断的置信度。

这一部分的损失函数称为临床数据损失，定义为：

。

2.3、数据筛选子模块：

数据筛选子模块首先计算在临床数据中每次就诊的数据质量系数。就诊

的数据质量系数记为/>

。/>

的计算方法如下。

假设就诊

中存在/>

种症状/>

和/>

个疾病诊断/>

。疾病/>

和症状/>

的距离/>

定义为医学知识图谱上连接/>

节点和/>

节点最短路径上节点的数量，该路径上的边的医学知识图谱边权重的平均值为/>

。/>

。

在每轮迭代完成之后，利用新的医学知识图谱边权重更新所有就诊的数据质量系数，并根据数据质量系数对训练数据集进行筛选。筛选过程中，根据数据质量系数对所有就诊进行降序排序，将排序前

个就诊作为训练集进入下一轮的训练迭代。/>

由用户设定，需要保证/>

是小于/>

的正整数。

2.4、模型总损失：

模型总损失记为

。其中/>

，当迭代轮次/>

满足

时，取/>

；当迭代轮次/>

满足/>

时，取/>

；当迭代轮次/>

满足/>

时，取/>

。/>

和/>

由用户设定，需要保证/>

和/>

是小于迭代轮次上限的正整数，且/>

大于 />

。

医学知识图谱边权重训练网络和图计算诊断预测子模块中各权重矩阵和权重向量的关系示意图如图3所示。在医学知识图谱边权重训练网络中，

和/>

分别表示第t-1轮迭代完成后的节点嵌入表示矩阵和边嵌入表示矩阵，利用/>

、/>

和可学习的权重权重矩阵/>

共同计算，得到第t轮迭代第一层网络更新后的节点嵌入表示矩阵/>

；利用

、/>

和可学习的权重权重矩阵/>

共同计算，得到第t轮迭代第二层网络更新后的边嵌入表示矩阵/>

；利用/>

、/>

、/>

共同计算，得到第t轮迭代第三层网络更新后的节点嵌入表示矩阵/>

；利用/>

和可学习的权重矩阵/>

共同计算，得到预测疾病节点的标签/>

；利用/>

和预测疾病节点的真实标签共同计算得到医学知识图谱损失/>

。在图计算诊断预测子模块中，利用/>

和可学习的权重向量/>

共同计算，得到医学知识图谱边权重/>

；利用/>

进行症状影响力值传播操作，得到预测疾病的标签/>

；利用/>

和真实临床数据中的疾病诊断共同计算，得到临床数据损失/>

。/>

和/>

和当前的迭代轮次t共同计算，得到模型总损失/>

。

每轮迭代中利用Adam优化器进行反向传播，更新权重矩阵和权重向量。在训练完成以后，医学知识图谱边权重

被保存下来。

3、疾病诊断预测模块：在对新的就诊进行疾病诊断预测时，将新的就诊中存在的症状和模型训练得到的医学知识图谱边权重输入图计算诊断预测子模块中，计算每种疾病诊断的置信度，按照对每种疾病诊断的置信度降序排序后按顺序输出每种疾病诊断的名称以及置信度。

4、解释模块：本系统提供了结果解释功能，可以选择一次就诊的一种或多种症状对应的症状节点在医学知识图谱上将原始症状影响力值传播到目标疾病节点的路径，以及传播路径上各个节点的症状影响力值根据医学知识图谱边权重所改变的情况。

根据具体数据与附图进一步详述如下实施例。

某医疗机构利用临床数据训练医学知识图谱边权重。采用SNOMED CT中概念、术语和关系构建医学知识图谱，医学知识图谱中包含73个疾病节点和623个症状节点（

，/>

，/>

）。根据医学知识图谱的结构计算得到医学知识图谱的节点邻接矩阵/>

和医学知识图谱的边邻接矩阵/>

，以及二元转换矩阵/>

。

从该医疗机构的电子病历数据库中提取到47906次就诊记录（

）：提取每次就诊中的实验室检验结果、病历文本等信息，经过处理后得到症状；提取每次就诊中的疾病诊断。每次就诊中包含至少一个症状节点对应的症状和一个疾病节点对应的疾病诊断。然后利用临床数据中症状与疾病诊断的共现信息，计算得到节点特征矩阵/>

和边特征矩阵/>

。同时计算疾病节点的标签和每次就诊对应的标签。完成医学知识图谱边权重训练网络的初始化。

设定迭代次数为1000,

，/>

。每轮迭代中，首先利用医学知识图谱边权重训练网络更新医学知识图谱的节点的嵌入表示矩阵和边的嵌入表示矩阵。然后由边的嵌入表示计算得到医学知识图谱边权重并根据疾病节点的标签求出医学知识图谱损失

。在图计算诊断预测子模块中，将训练集中每次就诊的症状对应的症状节点的症状影响力值设置为1，根据医学知识图谱的结构和医学知识图谱边权重传播症状影响力值，得到每种疾病诊断的置信度。根据每种疾病诊断的置信度和临床数据中的真实疾病诊断求出临床数据损失/>

。

利用当前迭代轮次的医学知识图谱边权重更新临床数据中每次就诊的数据质量系数。根据数据质量系数对所有就诊进行降序排序，将排序前30000个就诊（

）作为训练集进入下一轮的训练迭代。

根据本轮迭代轮次和

、/>

的大小关系确定/>

的值并计算出模型总损失/>

，利用Adam优化器进行反向传播，更新权重矩阵和权重向量。在训练完成以后，医学知识图谱的边的权重会被保存下来。

在对新的就诊进行疾病诊断预测时，将新的就诊中存在的症状和模型训练得到的医学知识图谱边权重输入图计算诊断预测子模块中，计算每种疾病诊断的置信度，对每种疾病诊断的置信度降序排序后按顺序输出每种疾病诊断的名称以及置信度。

得到疾病诊断推荐之后，可以选择输入的一种或多种症状，查看它们对目标疾病诊断的影响。如图4所示，可以展示单个症状节点

将症状影响力值传播到疾病节点/>

经过的边和节点以及对应边的边权重、对应节点的症状影响力值。假设边/>

的权重

，边/>

的权重/>

，边/>

的权重/>

，症状节点/>

对自身的症状影响力值/>

。/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值为/>

；/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，

的症状影响力值为/>

；/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值为/>

。

如图5所示，可以展示多个症状节点

、/>

将症状影响力值传播到疾病节点/>

的权重

，边/>

的权重/>

，边/>

的权重/>

，边/>

的权重/>

，边/>

的权重/>

。症状节点/>

对自身的症状影响力值/>

；症状节点/>

对自身的症状影响力值/>

；症状节点/>

对自身的症状影响力值/>

。/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值为/>

；/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值为/>

；/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值通过边/>

从/>

传递到节点/>

上，/>

的症状影响力值为

。

本发明结合了临床数据和医学知识图谱的结构，共同训练医学知识图谱边权重。训练过程中，对医学知识图谱的节点嵌入表示矩阵和边嵌入表示矩阵进行迭代更新，根据节点的嵌入表示预测疾病节点的标签并计算医学知识图谱损失。通过边的嵌入表示计算得到医学知识图谱边权重，根据医学知识图谱边权重和医学知识图谱的结构计算临床数据的数据质量系数，并对训练集中的临床数据进行筛选。根据医学知识图谱边权重和医学知识图谱的结构预测训练集中每次就诊的疾病诊断，并计算临床数据损失。医学知识图谱损失和临床数据损失共同作用于模型迭代。

训练完成后，只需要医学知识图谱的结构和医学知识图谱边权重，就可以对输入的症状进行症状影响力值传播，得到疾病诊断预测。计算过程透明，不涉及黑箱模型。实际应用过程中可以对疾病诊断预测结果进行解释，展示输入的症状对应的症状节点在医学知识图谱上将症状影响力值传播到目标疾病节点的路径，以及传播路径上各个节点的症状影响力值根据医学知识图谱边权重所改变的情况。

另外，参见图6，本发明实施例还提供了一种基于临床数据筛选和医学知识图谱的疾病预测装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于临床数据筛选和医学知识图谱的疾病预测系统中各个模块的操作。

本发明一种基于临床数据筛选和医学知识图谱的疾病预测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种基于临床数据筛选和医学知识图谱的疾病预测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述各个模块中对应操作的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于系统实施例，所以相关之处参见系统实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于临床数据筛选和医学知识图谱的疾病预测系统中各个模块的操作。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：包括初始化模块、医学知识图谱边权重训练模块、疾病诊断预测模块和解释模块；

2.如权利要求1所述的基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：所述医学知识图谱边权重训练网络由三层网络组成，在训练迭代过程中，第一层网络用于更新节点的嵌入表示矩阵，第二层网络用于更新边的嵌入表示矩阵，第三层网络用于再次更新节点的嵌入表示矩阵，完成节点的嵌入表示矩阵的更新以后，利用疾病节点的嵌入表示预测疾病节点的标签，根据疾病节点的标签预测结果和疾病节点的真实标签计算医学知识图谱损失，同时利用边的嵌入表示计算得到医学知识图谱边权重。

3.如权利要求1所述的基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：所述医学知识图谱构建子模块中所述医学知识源包括SNOMED CT、OMAHA类别的医学术语集，以及医学指南；所述构建的医学知识图谱中的节点分为疾病节点和症状节点，每一个疾病节点代表一种疾病诊断；每一个症状节点代表一种症状，症状包括症状术语和满足标准的实验室检验结果；医学知识图谱中的节点由无权重的边连接。

4.如权利要求1所述的基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：所述临床数据提取与处理子模块中临床数据包括每次就诊对应的疾病诊断、实验室检查结果和病历文本信息；提取与处理临床数据的具体操作流程为：首先对病历文本进行分词、术语提取、术语映射操作，得到症状术语；然后保留医学知识图谱疾病节点和症状节点对应的疾病诊断、实验室检查结果和症状术语。

5.如权利要求1所述的基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：所述医学知识图谱边权重训练模块执行的具体子步骤如下：

（1）、构建医学知识图谱的节点邻接矩阵和边邻接矩阵；

（2）、根据临床数据计算节点特征矩阵和边特征矩阵；

（3）、初始化医学知识图谱边权重训练网络；

6.如权利要求5所述的基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：所述医学知识图谱边权重训练模块执行每轮迭代中，利用Adam优化器进行反向传播，更新权重矩阵和权重向量,在训练完成以后，将此次训练得到的医学知识图谱边权重进行保存。

7.如权利要求1所述的基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：图计算诊断预测子模块中根据临床数据里每次就诊中存在的症状来计算每种疾病诊断的置信度的具体操作流程如下：

8.如权利要求1所述的基于临床数据筛选和医学知识图谱的疾病预测系统，其特征在于：所述疾病诊断预测模块的具体操作流程为：在对新的就诊进行疾病诊断预测时，根据新的就诊中存在的症状和医学知识图谱边权重，计算每种疾病诊断的置信度，对每种疾病诊断的置信度降序排序后按顺序输出每种疾病诊断的名称以及置信度。

9.一种基于临床数据筛选和医学知识图谱的疾病预测装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于执行权利要求1-8任一项所述基于临床数据筛选和医学知识图谱的疾病预测系统中任一所述模块操作。