CN114783603A

CN114783603A - 基于多源图神经网络融合的患病风险预测方法及系统

Info

Publication number: CN114783603A
Application number: CN202210405096.4A
Authority: CN
Inventors: 周雪忠; 田昊宇; 杨扩
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-22

Abstract

本发明提供一种基于多源图神经网络融合的患病风险预测方法及系统，属于医疗技术领域。在方法与系统中，结合患者历史诊断信息，基于患病时长信息进行患者特征构建，形成患病风险预测数据集；构建多源疾病关系网络，提出基于图神经网络的疾病网络特征抽取，进行患者患病特征矩阵补全；提出基于多源疾病关系网络融合的患病风险预测模型，实现患病风险的高精度预测。

Description

基于多源图神经网络融合的患病风险预测方法及系统

技术领域

本发明涉及医疗技术领域，具体涉及一种基于多源图神经网络融合的患病风险预测方法及系统。

背景技术

随着电子病历系统的推广，近年来疾病预测研究受到广泛关注并取得重要进展。疾病预测研究的目标之一是预测患者未来可能患某种疾病的风险值，主要分为两类模型：1)静态预测，即不考虑时间限制的情况下对某个结果进行预测，类似于医生对于患者当前症状进行疾病诊断，或者近期发生发展的病情进行预测；2)动态疾病预测，即考虑多个时间节点下的患者情况对患者的某个病情进行预测，如使用历史患病记录预测未来半年出现心力衰竭的风险。

静态疾病预测模型主要以机器学习方法为主。例如DeepPatient将自动编码器和随机森林结合进行疾病风险预测。Olof等人现基于TF-IDF处理后数据，使用受限玻尔兹曼机得到预测效果最好。Mohan等人提出了一种线性模型混合随机森林HRFLM、准确度为88.7％的心脏病预测模型。不足之处在于，现有疾病预测或诊断研究利用的患者信息较少，往往基于单一时间节点下的病例文本或者图像数据进行诊断，而且这些方法通常缺少对比实验，模型的真实性能效果未知。

动态疾病预测通常将患者的历史诊断信息嵌入到低维空间，并将患病经历表示为一系列序列特征，结合序列模型预测患者未来患病情况。Yu等人发现基于慢融合的CNN模型在预测心力衰竭和慢阻肺的发病时间性能最佳。 Choi等人构建了一个结合患者历史事件、基于RNN模型的DoctorAI，其预测患病准确率与医生相似。Choi等人提出了基于注意力的GRAM心力衰竭预测模型；Ma等人提出了端到端KAME模型预测患者未来健康状况。Gao等人提出了一种共同注意力记忆网络CAMP用于疾病诊断预测。以上预测模型需要大量训练数据来优化模型参数，当训练样本不足时性能欠佳；同时，这些方法缺少考虑疾病间的潜在关系和疾病自身的医学领域知识，而且现有的方法依旧是以单一模态患者数据预测为主，如何引入多模态数据提升预测性能是目前的热点和难点。

发明内容

本发明的目的在于提供一种基于多源图神经网络融合的患病风险预测方法及系统，其利用多源疾病关系网络挖掘潜在疾病关系，从患病时长角度对患者历史诊断记录进行充分学习与表征，进行重大慢性疾病的患病风险预测，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种基于多源图神经网络融合的患病风险预测方法，该方法通过获取患者的诊断记录数据，经过疾病预测数据集构建、基于历史诊断的患者特征提取、基于图神经网络的疾病表示、基于多层感知机网络的患病风险预测，最终得到患者的患病风险概率。包括：

优选的，疾病预测数据集构建包括：对患者的病历记录进行规范，从患病时长角度对患者多诊次的诊断结果进行整合，构建疾病预测数据集。

优选的，多源疾病关系网络构建包括：构建基于合并病的疾病共现网络、基于疾病编码的疾病关系网络和基于表型—基因型关系的疾病网络。

优选的，基于历史诊断的患者特征提取包括：借助全连接网络对疾病间的隐含关系进行学习，使用卷积神经网络形成基于历史诊断的患者特征。

优选的，基于图神经网络的患者特征提取包括：使用图卷积神经网络学习多源疾病关系网络节点特征，结合补全后的患者特征形成多组基于疾病关系网络的患者高维特征。

优选的，基于多层感知机网络的患病风险预测包括：将基于历史诊断的患者特征与基于疾病网络的患者特征融合，使用多层感知机网络对患病风险进行预测，得到患者下一阶段新增疾病的患病概率；

第二方面，本发明提供一种基于多源图神经网络融合的患病风险预测系统，包括：

疾病风险预测集与疾病关系网络构建模块，通过获取患者的诊断记录数据，对患者的病历记录进行规范，从患病时长角度对患者多诊次的诊断结果进行整合，构建疾病预测数据集。构建多源疾病关系网络，主要包括：基于合并病的疾病共现网络、基于疾病编码的疾病关系网络和基于表型—基因型关系的疾病网络。

患病风险预测模块，利用构建好的基于多源图神经网络融合的患病风险预测模型，对患者进行患病风险预测，得到最终的患病风险；其中，患病风险预测模型首先借助全连接网络对患者原始特征进行补全，结合卷积神经网络实现基于历史诊断的患者特征提取；借助图卷积神经网络模型结合多源疾病关系网络提取基于疾病网络的患者特征；将两部分患者特征融合，经过患病风险预测后，得到患者下一阶段新增目标疾病的患病概率；

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的基于多源图神经网络融合的患病风险预测方法。

第四方面，本发明提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的基于多源图神经网络融合的患病风险预测方法。

第五方面，本发明提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于多源图神经网络融合的患病风险预测方法。

本发明有益效果：首次提出结合患者历史诊断信息，基于患病时长信息进行患者特征构建，形成患病风险预测数据集；首次提出结合图表示学习和多源疾病关系网络进行患者患病特征矩阵补全；首次提出基于多源疾病关系网络融合的患病风险预测模型，实现患病风险的高精度预测。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的预测数据集示意图。

图2为本发明实施例所述的多源疾病关系网络构建示意图。

图3为本发明实施例所述的基于患病时长数据的患病风险预测模型示意图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种基于多源图神经网络融合的患病风险预测系统，包括：

本实施例1中，利用上述的患病风险预测系统，实现了基于多源图神经网络融合的患病风险预测方法，包括如下步骤：

其中，基于患病时长的疾病预测数据集构建包括：

采用真实世界的病案首页数据进行分析与研究，结合患者的真实疾病发生发展情况构建预测数据集。病案首页数据主要包括患者的多诊次记录，主要包括医院编号、患者编号、诊次编号、患者基本情况(如年龄、性别)和诊断结果等信息。由于患者所患疾病种类不同、严重程度不一，每位患者的诊疗记录数量也存在不一致性，而且大部分疾病诊断结果是以ICD-10疾病编码记录。以预测重型肺炎疾病为例，收集整合相关病案首页数据。在构建重型肺炎序贯诊疗数据集时，发现数据矩阵较为稀疏，且病案首页包含诊断时间。因此在构建思路上，以时间信息为切入点构建基于患病时长的数据集，以患者作为样本对象，引入患病时长信息构建基于患病时长的诊疗数据集。

(1)数据规范

首先是原始数据审核与筛选。根据ICD-10规范编码文档对病案首页数据的疾病编码进行筛选，删除异常编码(如与标准编码无法对应)、错误编码与旧版编码等异常数据，初步筛选后的诊次记录约为1139万条。由于ICD-10 编码对于疾病归属划分程度较为细致，直接以6位ICD-10编码构建的预测数据集不利于后续模型训练。在临床专家指导下，最终选定前4位ICD-10编码构建预测数据集。最后，对诊疗记录进行统计，如果患者诊断记录数量大于2，则保留下来，去除只包含单诊次的患者数据，最终形成了47万余患者纵向诊断记录。

(2)历史诊断时间规范

经过数据规范，已整合出每位患者的多诊次数据。通过对先后两次连续诊疗结果进行比较，获得后一次诊断减去前一次诊断的差值结果，即为患者的新增疾病，如图1所示。综合考虑本数据集中患者诊断次数分布规律与疾病相关医学知识，本实施例2中设置单位间隔时间为1个月，对单位间隔时间内多次诊断结果进行合并，视为同一诊次。患者在第5次诊断时出现新增待预测疾病，则对前四次诊断记录及时间进行统计。合并处理后，假如第1次与第5 次诊断大约间隔4个月，而单位间隔时间为1个月，则第一次诊断中所有疾病对应的患病时长分值一致，本文设为1，之后再对第二次、第三次与第四次诊断依次处理，患病时长分值分别对应为2、4与8，患病时长分值的整体趋势为距诊断时间越近，疾病对应分值越高。综合考虑本数据集中患者诊断次数分布规律与疾病相关医学知识，设置考虑前置诊断次数为4，即患者诊断次数过多时，本预测数据集仅考虑前四次诊断记录。最后将相同疾病的分数求和作为疾病对应的最终患病时长分值，形成面向患病时间的新增疾病数据集。

(3)患病风险预测数据集构建

本实施例2中，选取重型肺炎为预测目标，综合考虑收集的临床病案首页数据与疾病相关医学知识，选取未特指的脓毒病(A41.9)、急性呼吸衰竭(J96.0)、未特指的心力衰竭(I50.9)组合为肺炎疾病。采用上一环节历史诊断时间规范方法，根据是否新增待预测肺炎，制作模型训练数据集，出现重型肺炎则为正例，新增疾病为其他疾病则为负样本。随机抽取正例样本数中的10000例数据作为正样本，随机抽取其他疾病作为预测疾病对应构建新增数据集作为负例，并从中抽取等量负样本数据。最终构建具有20000个样本的预测重型肺炎疾病数据集，正负样本比例为1:1。在正样本中平均每位病人特征分值累加和为73.14，负样本中平均每位病人特征分值累加和为66.65。

实施例2

本实施例2中，提出一种多源疾病关系网络的数据整合与构建方法，基于三种疾病关系数据构建三种疾病关系网络，分别是基于合并病的疾病共现网络、基于ICD-10的疾病关系网络和基于表型基因型关系的疾病网络，如图2所示。

(1)基于合并疾病共现的疾病网络

患者患有一种疾病同时往往患有其他多种疾病，本节通过患者所患疾病的共现情况构建疾病共现网络。网络每个节点代表一种疾病，边代表该两端节点对应的疾病具有共现关系，权重则为病案首页数据中同时患有两种疾病的患者数量。为了提高共现网络质量，对边权重大于5的高频边进行了保留，去掉其他边。同时为与重型肺炎预测数据集中的合并疾病保持一致，对节点进行筛选，保留重型肺炎预测数据集涉及的疾病，最终构建疾病共现网络，包含节点3046个，边372194条。

(2)基于ICD-10疾病编码的疾病网络

基于ICD-10编码的疾病网络以ICD-10编码所蕴含医学知识为基础，网络中节点代表某一疾病，边以疾病节点对应ICD-10编码的相似度表示。根据 ICD-10编码的树形结构特点，疾病编码间相似度可以通过本体相似度公式计算，计算得到的相似度结果作为网络中边的权重，公式如下。

其中lcs(c₁,c₂)表示根据ICD树形结构查找到的最近公共根节点，freq(c)表示节点c的子节点数量，如果c为叶子节点时则对应为1。之后对网络节点进行筛选，只保留与重型肺炎预测数据集相关的疾病，对网络进行精简，最终得到基于ICD-10编码的疾病网络，网络包含节点796个，边82144条。

(3)基于疾病基因关系的疾病网络

通过收集人类疾病数据库MalaCards、统一医学语言系统UMLS等中的疾病基因关系对应情况，将“疾病-基因”关系中的基因为桥梁，建立链接，从而构建疾病之间关联关系。从MalaCards、UMLS等库收集的疾病基因关系数据为77640条，覆盖疾病数量2978个，涉及基因9012个。对网络节点进行筛选，只保留与重型肺炎预测数据集相关的疾病，最终得到基于疾病基因关系的疾病网络，包含节点2708个，边218284条。

表1疾病关系网络规模统计表

由于数据来源不同，三种疾病关系网络的尺寸与稠密度不一致，基于疾病共现网络边最多(见表1)。对三种疾病关系网络统一以邻接矩阵形式表示，邻接矩阵的维度以重型肺炎预测数据集中疾病总数量为准，统一规范为 3051维对应填充，三种疾病关系网络的邻接矩阵尺寸均为3051*3051。疾病网络中的每个节点均对应着一种疾病，基于自然语言处理方法Glove词向量模型，预先从大量中医古籍数据和医院电子病历数据学习Glove字向量，之后根据疾病编码对应的疾病名称进行加权求和得到疾病的词向量，疾病词向量维度为200。这里采用字向量而不用词向量的原因是预先收集的文本数据绝大部分来源于实际临床病历文本与中医书籍，这些文本含有大量的症状描述信息与同义词表述，直接训练词向量难度较大且效果不佳，因此采用字向量的方式以构建词向量。

实施例3

本实施例3中，提出一种基于多源图神经网络融合的患病风险预测模型，实现患病风险的高精度预测。

基于患病时长数据的患病风险预测模型(如图3所示)包含三个模块，A 模块是对患者历史患病特征进行提取；B模块借助图卷积神经网络模型学习多个疾病网络的节点特征矩阵，进而计算基于疾病网络的患者高维特征；最后C 模块将A模块与B模块学习的患者特征进行拼接，并借助多层感知机实现对患者未来新增待疾病的患病风险进行预测，具体如下。

(1)患者临床特征学习模块A。该模块主要包括ICD邻接矩阵激活以及卷积神经网络(CNN)特征提取。首先，输入数据为患者特征向量，本研究涉及3051种疾病，因此每位患者对应一个3051维的向量。为缓解数据稀疏的问题，借助全连接网络对疾病间的隐含关系进行学习，对患者目前未患病的大量0数据填充数值，同时对患者隐含疾病进行表示。采用CNN提取患者疾病特征的优势是融合了ICD-10编码的树形结构信息，因为A模块输入数据中每位患者的合并疾病特征对应的疾病编码为顺序排序，而ICD-10编码的树形结构使得同属一个大类下的叶子节点对应的疾病编码是相似的或者连续的。对患者的患病情况特征数据进行卷积，实现了对某一疾病的患病情况及其相近疾病患病信息一起学习，从而高质量的提取患者的临床诊断疾病特征信息。

(2)多源图神经网络特征学习模块B。B模块在A模块输入数据激活后，主要由三个图神经网络(GCN)模块组成。B模块输入为三个疾病关系网络，它们邻接矩阵维度相同。使用GCN学习疾病关系网络节点特征，得到三个节点特征矩阵，之后将激活后的患者疾病特征信息与三个节点特征矩阵分别相乘，得到三组基于合并疾病关系网络的患者高维特征。

(3)患病风险预测模块C。C模块在A和B模块后，包含一个多层感知机计算患者将来患某病的风险。C模块的输入包含A模块临床诊断特征，以及B 模块的疾病特征。两部分信息均代表着患者高维特征，将两个特征拼接构成最终的患者疾病特征。之后，通过分类模型对患者未来患病风险进行预测，与训练数据的实际标签进行比较，计算误差反向传播从而优化模型参数，不断迭代，最终学习到最佳模型参数。

实施例4

本发明实施例4提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行基于多源图神经网络融合的患病风险预测方法，该方法包括如下流程步骤：

通过获取患者的诊断记录数据，对患者的病历记录进行规范，从患病时长角度对患者多诊次的诊断结果进行整合，构建疾病预测数据集。构建多源疾病关系网络，主要包括：基于合并病的疾病共现网络、基于疾病编码的疾病关系网络和基于表型—基因型关系的疾病网络。

利用构建好的基于多源图神经网络融合的患病风险预测模型，对患者进行患病风险预测，得到最终的患病风险；其中，患病风险预测模型首先借助全连接网络对患者原始特征进行补全，结合卷积神经网络实现基于历史诊断的患者特征提取；借助图卷积神经网络模型结合多源疾病关系网络提取基于疾病网络的患者特征；将两部分患者特征融合，经过患病风险预测后，得到患者下一阶段新增目标疾病的患病概率。

实施例5

本发明实施例5提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现基于多源图神经网络融合的患病风险预测方法，该方法包括如下流程步骤：

实施例6

本发明实施例6提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行基于多源图神经网络融合的患病风险预测方法，该方法包括如下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多源图神经网络融合的患病风险预测方法，其特征在于，包括：

通过获取患者的诊断记录数据，对患者的病历记录进行规范，从患病时长角度对患者多诊次的诊断结果进行整合，构建疾病预测数据集，构建多源疾病关系网络；

2.根据权利要求1所述的基于多源图神经网络融合的患病风险预测方法，其特征在于，疾病预测数据集构建，包括：对患者的病历记录进行规范，从患病时长角度对患者多诊次的诊断结果进行整合，构建疾病预测数据集。

3.根据权利要求1所述的基于多源图神经网络融合的患病风险预测方法，其特征在于，构建多源疾病关系网络，主要包括：基于合并病的疾病共现网络、基于疾病编码的疾病关系网络和基于表型—基因型关系的疾病网络。

4.根据权利要求1所述的基于多源图神经网络融合的患病风险预测方法，其特征在于，基于历史诊断的患者特征提取，包括：借助全连接网络对疾病间的隐含关系进行学习，使用卷积神经网络抽取基于历史诊断的患者隐含特征。

5.根据权利要求1所述的基于多源图神经网络融合的患病风险预测方法，其特征在于，基于图神经网络的患者特征提取，包括：使用图卷积神经网络学习多源疾病关系网络节点特征，结合补全后的患者特征形成基于疾病关系网络的患者高维特征。

6.一种基于多源图神经网络融合的患病风险预测系统，其特征在于，包括：

患病风险预测模块，利用构建好的基于多源图神经网络融合的患病风险预测模型，对患者进行患病风险预测，得到最终的患病风险；其中，患病风险预测模型首先借助全连接网络对患者原始特征进行补全，结合卷积神经网络实现基于历史诊断的患者特征提取；借助图卷积神经网络模型结合多源疾病关系网络提取基于疾病网络的患者特征；将两部分患者特征融合，经过患病风险预测后，得到患者下一阶段新增目标疾病的患病概率。

7.一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1-5任一项所述的基于多源图神经网络融合的患病风险预测方法。

8.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1-5任一项所述的基于多源图神经网络融合的患病风险预测方法。

9.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的基于多源图神经网络融合的患病风险预测方法。