CN114898879B - 一种基于图表示学习的慢病风险预测方法 - Google Patents
一种基于图表示学习的慢病风险预测方法 Download PDFInfo
- Publication number
- CN114898879B CN114898879B CN202210539116.7A CN202210539116A CN114898879B CN 114898879 B CN114898879 B CN 114898879B CN 202210539116 A CN202210539116 A CN 202210539116A CN 114898879 B CN114898879 B CN 114898879B
- Authority
- CN
- China
- Prior art keywords
- disease
- node
- hospitalization
- edge
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明涉及医疗信息技术领域,涉及一种基于图表示学习的慢病风险预测方法;将结构化数据抽象为图数据,构建个人疾病网络表示患者个体;个人疾病网络中节点表示所患疾病,有向边的方向表示疾病出现的先后顺序,权值表示在患者个体的住院序列中,该有向边关联的有向疾病对出现的频率;通过词嵌入方法生成个人疾病网络中疾病节点的初始表示;并设计了一种集成图卷积和图池化的整图分类预测模型对个人疾病网络进行学习,生成对患者的嵌入表示。其中,图卷积层为多关系注意力卷积,可按照时序方向分别聚合节点的领域信息;图池化层为集成边权重的边收缩池化,可实现对个人疾病网络的层次化学习;最后,基于患者的嵌入表示实现对个体未来慢病风险的预测。
Description
技术领域
本发明涉及医疗信息技术领域,尤其涉及一种基于图表示学习的慢病风险预测方法。
背景技术
近年来,慢性病成为影响人们生活和健康的重要疾病,严重威胁着人们身体健康。常见慢性病有心脑血管疾病、糖尿病、慢性呼吸系统疾病等。这些慢性病间往往存在着复杂的关系,如多病共存、共病等,慢性病之间也存在着一定的发展和演进方向,充分挖掘慢性病之间的复杂关系或发展规律有助于提高慢病风险预测的准确性。慢病风险预测的关键在于基于患者的历史医疗记录,准确推测患者未来的慢性病患病情况,以辅助临床决策和精确诊断,这对提示患者及时采取预防措施,降低慢病危险因素,减轻慢病负担也有着重要意义。
现有的基于数据驱动的疾病预测有以下一些方法:(1)提取结构化的特征来描述患者历史健康状况,并进一步利用机器学习、深度学习等方法进行特征筛选,预测患者的疾病风险;但结构化的特征往往难以反映原始数据中丰富的关系型信息,如疾病间的复杂关系。
(2)利用节点预测的方法,即把患者抽象成图的节点,利用图的领域信息更新患者节点的嵌入向量,从而进一步实现疾病风险预测;但该方法无法很好地考虑到疾病发生的时序信息;在现有的方法中,少有利用整图分类策略实现对个体未来患病风险的预测。
发明内容
为了解决上述现有技术中存在的问题,本发明拟提供一种能够利用整图分类策略实现对个体未来患病风险预测的基于图表示学习的慢病风险预测方法。
本发明采用的技术方案如下:
一种基于图表示学习的慢病风险预测方法,包括以下步骤:
步骤1:基于病案首页数据提取患者的住院记录数据,并将其储存在数据库中;
步骤2:基于数据库中的住院记录数据建立由节点和有向边构成的个人疾病网络;所述节点用于表示疾病,边的方向表示疾病出现的先后顺序,权值表示在患者个体的住院序列中,该有向边关联的有向疾病对出现的频率;
步骤3:在步骤1中提取的住院记录数据中提取训练样本,并基于训练样本定义词嵌入模型,使用噪音对比估计损失函数(NCE,Noise Contrastive Estimation)训练所述词嵌入模型,并基于训练好的词嵌入模型得到每个疾病的初始向量;
步骤4:基于个人疾病网络构建慢病风险预测模型。
本发明将结构化数据抽象为图数据,构建个人疾病网络表示患者个体。个人疾病网络中,节点表示患者所患疾病,边的方向表示疾病出现的先后顺序,权值表示在患者个体的住院序列中,该有向边关联的有向疾病对出现的频率;个人疾病网络基于患者个体的历史诊断信息构建,且唯一表征该患者。其次,通过词嵌入方法生成个人疾病网络中疾病节点的初始表示。然后,基于慢病风险预测模型对个人疾病网络进行学习,从而生成对患者的嵌入表示,关注患者个体的疾病演进规律,有助于提高未来慢病风险预测的准确性。
并且本发明的个人疾病网络具有比原始结构化的数据更丰富的关系型信息,能够充分表达患者的历史疾病进展趋势。患者的历史疾病发展趋势往往指示着其未来的疾病风险,因此个人疾病网络的方向性有利于预测模型提取时序信息和疾病关系。
优选的,在所述步骤1中基于住院记录数据按照时间顺序聚合同一个患者的多次住院记录,并针对每个患者,选取一次住院记录作为观察窗口和预测窗口的分界线;所选取的住院记录的住院时间及其之前的住院数据定义为观察窗口,所选取的住院记录的住院时间之后的住院数据定义为预测窗口;观察窗口内的住院数据用于构建所述个人疾病网络;并在所述观察窗口内选取至少有两次住院记录的住院数据作为所述训练集样本;所述预测窗口内的住院记录数据用于定义慢病标签。
优选的,所述步骤2中定义目标患者的节点所形成的节点集V={d1,d2,...,dm},di∈V为目标患者曾诊断出的疾病,所有的i,j∈[1,m],且di≠dj;E为有向边组成的集合;边的方向反映疾病发病的时间顺序,边的权重定义为有向疾病对出现的频率;具体的,有向边di→dj的权重Weightdi→dj定义为:
式中:ri∈Ri,rj∈Rj;Ri、Rj分别表示诊断有疾病di和dj的住院序号按照住院时间排序组成的集合;n表示目标患者的住院次数。
优选的,所述词嵌入模型的训练步骤如下:
定义所述数据库中包含有N条住院记录,并将所有出现过的疾病组合成集合D,疾病di∈D;首先对疾病进行独热编码,疾病的独热编码c定义为:c∈{0,1}|D|,c[k]=1;对所有的j∈[0,|D|]且j≠k,c[j]=0;
将每条住院记录中的主要诊断的独热编码作为词嵌入模型的输入,次要诊断为预测标签,提取训练样本,训练词嵌入模型。
优选的,所述慢病风险预测模型由图卷积层和图池化层堆叠构成;
所述图卷积层为多关系注意力卷积,用于分别聚合不同疾病演进方向下的节点的领域信息,以更新节点的嵌入表示;同一演进方向下的不同的邻居节点对中心节点的注意力权值不同;
图池化层为集成边权重的边收缩池化,用于逐步抽取图更高层的信息,实现对个人疾病网络的层次化学习。
优选的,所述预测模型的网络结构如式所示:
式中:“for i=0 to 2 do”表示i从0开始迭代式中所述过程,直到i=2时结束迭代;当i=0时,Gi表示原个人的疾病网络G,conv表示对图中的节点进行多关系注意力卷积,v表示Gi中的节点,hv表示节点v的嵌入表示;readout表示将图中所有节点的嵌入表示聚合,具体的,可以是将所有节点的当前嵌入表示进行加和;当i>0时,pooling表示对卷积的图Gi-1进行集成边权重的边收缩池化,得到个人疾病网络更高阶的图结构Gi;
将原始个人疾病网络的嵌入表示为g0,第一层和第二层池化后的高阶个人疾病网络的嵌入表示g1和g2拼接后,通过以下计算公式得到患者的嵌入表示e,以表征患者现有的健康状况:
e=σ(W(g0||g1||g2));
式中,g0、g1、g2分别表示不同网络层输出的个人疾病网络的嵌入表示;||表示向量的拼接;W为训练参数;σ为激活函数。
式中:W和b为训练参数,e为个人疾病网络的嵌入向量。
优选的,通过梯度下降算法对预测模型的网络结构中的参数进行更新优化,实现端到端的训练。
优选的,所述多关系注意力卷积的建立如下所述:
所述个人疾病网络中,中心节点的邻居节点分为两种类型,一种是入边所关联的邻居节点,代表先于中心节点发生的疾病;一种是出边所关联的邻居节点,代表晚于中心节点发生的疾病;预测模型中的卷积结构分别学习入边关联和出边关联的节点所代表的疾病的注意力权重以及参数矩阵;并分别对入边关联和出边关联的节点所代表的疾病添加注意力机制,使得聚合过程分别赋予影响中心节点疾病最强的先发疾病和后发疾病最高的权重,按照时序方向分别聚合中心节点的领域信息。
优选的,所述邻居节点dj到中心节点di的注意力计算方式为:
式中,type(j)表示节点dj所属的关系类型;关系类型type包含in和out,分别表示入边和出边关系;αij type(j)表示在关系type(j)下,邻居节点dj对节点di的重要性;a(.)表示计算节点di和dj相关性的函数;W为训练参数;hi k、hj k分别表示节点di和dj第k层的嵌入向量;Ni type(j)表示di的一类邻居节点,该类邻居节点的关系类型为type(j);若di到dj同时有出边和入边,则dj对di的注意力权重对应有αij type(j)=in和αij type(j)=out;
将入边关联和出边关联的节点下得到的节点嵌入向量聚合为中心节点的最终嵌入向量;节点第k+1层的嵌入向量hi k+1可以由下式计算得到:
其中,Win和Wout为训练参数;αij in和αij out分别为入边和出边关系下邻居节点dj到中心节点di的注意力;σ(.)为激活函数;AGG()为聚合函数,可以是将出边注意力卷积和入边注意力卷积下得到的中心节点嵌入向量进行加和。
优选的,所述图池化层为集成边权重的边收缩池化的过程如下所述:
对个人疾病网络中的每条边di→dj计算一个分值Sij:
Sij=softmaxj(W[hi||eijhj]);
式中:eij表示边di→dj的权重;hi表示中心节点di的当前嵌入表示;hj表示di的出边所关联邻居节点dj的当前嵌入表示;W为训练参数;||表示向量拼接。
按照分值S由大到小依次选取k条不含共同端点的边组成收缩边集E={e1,e2,...,ek};将E中每条边的两个节点沿边两两归并形成一个新节点,归并前两个节点的所有连接关系合并到新节点上,并按下式更新得到新节点的嵌入向量hij:
hij=Sij(hi+hj);
式中,Sij表示边di→dj的分值,hi、hj分别表示节点di和dj的当前嵌入表示;
本发明的有益效果包括:
1.本发明将结构化数据抽象为图数据,构建个人疾病网络表示患者个体。个人疾病网络中,节点表示患者所患疾病,边表示疾病发病的时间顺序和有向疾病对出现的频率。个人疾病网络基于患者个体的历史诊断信息构建,且唯一表征该患者。其次,通过词嵌入方法生成个人疾病网络中疾病节点的初始表示。然后,设计了一种集成特定图卷积和图池化的整图分类预测模型对个人疾病网络进行学习,从而生成对患者的嵌入表示。其中,图卷积层为多关系注意力卷积,可按照时序方向分别聚合节点的领域信息;图池化层为集成边权重的边收缩池化,可实现对个人疾病网络的层次化学习。最后,基于患者的嵌入表示实现对个体未来慢病风险的预测。
2.本发明将结构化数据抽象为图数据,构建个人疾病网络表示患者个体。个人疾病网络中,节点表示患者所患疾病,边表示疾病发病的时间顺序和有向疾病对出现的频率;个人疾病网络基于患者个体的历史诊断信息构建,且唯一表征该患者。其次,通过词嵌入方法生成个人疾病网络中疾病节点的初始表示。然后,基于慢病风险预测模型对个人疾病网络进行学习,从而生成对患者的嵌入表示,关注患者个体的疾病演进规律,有助于提高未来慢病风险预测的准确性。
3.本发明的个人疾病网络具有比原始结构化的数据更丰富的关系型信息,能够充分表达患者的历史疾病进展趋势。患者的历史疾病发展趋势往往指示着其未来的疾病风险,因此个人疾病网络的方向性有利于预测模型提取时序信息和疾病关系。
4.由于个人疾病网络中,节点代表疾病的类型,中心节点的邻居节点分为两种类型,一种是入边所关联的邻居节点,代表先于中心节点发生的疾病;一种是出边所关联的邻居节点,代表晚于中心节点发生的疾病。鉴于二者在时序上的差异性,预测模型中的卷积结构分别学习两种关系下的注意力权重以及参数矩阵。对先于中心节点发生的疾病和晚于中心节点发生的疾病分别添加注意力机制,可以使得聚合过程分别赋予影响中心疾病节点最强的先发疾病和后发疾病最高的权重,按照时序方向分别聚合中心节点的领域信息。
集成边权重的边收缩池化用于逐步抽取图更高层的信息,池化过程中考虑了个人疾病网络中边的权重值。池化前的图嵌入表示可以提取较细粒度的图结构特征;集成边权重的边收缩池化通过将原始图中的节点沿收缩边两两合并为新节点,以得到的新的图结构,因此池化后图的嵌入表示可以提取更粗粒度的图结构特征。将不同层次下个人疾病网络的图嵌入表示拼接后用于预测患者个体的慢病风险预测,可实现对个人疾病网络的层次化学习。
附图说明
图1为本发明的个人疾病网络示意图。
图2为本发明的慢病风险预测模型框架示意图。
图3为本发明的慢病风险预测模型的训练及预测流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1和附图3对本发明的实施例作进一步的详细说明:
一种基于图表示学习的慢病风险预测方法,包括以下步骤:
步骤1:基于病案首页数据提取患者的住院记录数据,并将其储存在数据库中;
所述住院记录数据包括患者的身份证号、每次住院的入院时间和疾病诊断(包括一个主要诊断和多个次要诊断);按照时间顺序聚合同一个患者的多次住院记录;具体而言,将每个患者住院记录数据表示为二维可变长数组,数组行号r对应表示按该患者住院时序编排的序号,每行表示一次住院,并将该次住院的疾病诊断信息储存至数据库中。
针对每个患者,选取一次住院记录作为观察窗口和预测窗口的分界线;所选取的住院记录的住院时间及其之前的住院数据定义为观察窗口,所选取的住院记录的住院时间之后的住院数据定义为预测窗口;观察窗口内的住院数据用于构建所述个人疾病网络;并在所述观察窗口内选取至少有两次住院记录的住院数据作为所述训练集样本;所述预测窗口内的住院记录数据用于定义慢病标签;例如:
针对每个患者p,选取一次住院记录rp做为观察窗口和预测窗口的分界线,rp的住院时间记为tp。tp及以前定义为观察窗口期,tp以后的t年定义为预测窗口期。观察窗口期内,患者的每次住院疾病诊断信息将用于构建个人疾病网络。为保证模型训练效果,选取的训练集样本(患者)应满足具有足够长的观察窗口期(例如至少2次住院记录)。预测窗口期内,患者的患病情况用于定义慢病标签。具体地,分析数据集中患者的患病情况,可选取患病率高的a种慢性疾病{d1,d2,...,da}做为预测目标。根据患者p在预测窗口期内是否患目标疾病,定义疾病标签Labelp={y1,y2,...,ya}:对于所有的i∈[1,a],若患者p在预测窗口期内患有疾病di,则相应地令yi=1,否则令yi=0。
综上,对于一个患者,有历史住院记录序列{r1,r2,...,rp},每次住院记录ri(i∈[1,p])中的疾病诊断编码为{di1,di2,...,din},根据上述观察窗口内的信息,可利用所述基于图表示学习的慢病风险预测模型,预测该患者在预测窗口[tp,tp+t]期间可能患的慢性病,并以该患者在预测内的实际患病情况检验预测准确性。
步骤2:基于数据库中的住院记录数据建立由节点和有向边构成的个人疾病网络;所述节点用于表示疾病,边的方向表示疾病出现的先后顺序,权值表示在患者个体的住院序列中该有向疾病对出现的频率;
构建个人疾病网络G=(V,E),用于反映患者的历史疾病发展趋势,描述患者历史患病状况。
个人疾病网络G由节点和有向边构成,节点集V={d1,d2,...,dm},di∈V为目标患者曾诊断出的疾病,所有的i,j∈[1,m],且di≠dj;E为有向边组成的集合;边的方向反映疾病发病的时间顺序,边的权重定义为有向疾病对出现的频率;具体的,有向边di→dj的权重Weightdi→dj定义为:
式中:ri∈Ri,rj∈Rj;Ri、Rj分别表示诊断有疾病di和dj的住院序号按照住院时间排序组成的集合;n表示目标患者的住院次数。
步骤3:在步骤1中提取的住院记录数据中提取训练样本,并基于训练样本定义词嵌入模型,使用噪音对比估计损失函数训练所述词嵌入模型,并基于训练好的词嵌入模型得到每个疾病的初始向量;
所述词嵌入模型的训练步骤如下:
定义所述数据库中包含有N条住院记录,并将所有出现过的疾病组合成集合D,疾病di∈D;首先对疾病进行独热编码,疾病dk的独热编码c定义为:c∈{0,1}|D|,c[k]=1;对所有的j∈[0,|D|]且j≠k,c[j]=0;
将每条住院记录中的主要诊断的独热编码作为词嵌入模型的输入,次要诊断为预测标签,提取训练样本,训练词嵌入模型;例如:
对一条住院记录有主要诊断d1,次要诊断d2、d3和d4,则可提取正样本:
([1,0,0,0,0,...,0],[0,1,0,0,0,...,0]),
([1,0,0,0,0,...,0],[0,0,1,0,0,...,0]),
([1,0,0,0,0,...,0],[0,0,0,1,0,...,0])
其中,[1,0,0,0,0,...,0]、[0,1,0,0,0,...,0]、[0,0,1,0,0,...,0]、[0,0,1,0,0,...,0]分别表示疾病d1、d2、d3和d4的独热编码。
基于提取的训练样本,定义词嵌入模型,使用噪音对比估计损失函数,训练所述的词嵌入模型,并利用训练得到的词嵌入模型,生成每个疾病的初始向量。
由于不同个体的历史患病情况存在差异性,因此每个人的疾病网络中的节点集是不同的,为了更有效的区别患者的个体,本发明设计了一种词嵌入的方法构建个人疾病网络中的疾病节点的初始向量表示,用其他关联疾病来刻画中心疾病,使得疾病向量更具表达力。
步骤4:基于个人疾病网络构建慢病风险预测模型。
所述慢病风险预测模型由图卷积层和图池化层堆叠构成;
所述图卷积层为多关系注意力卷积,用于分别聚合不同疾病演进方向下的节点的领域信息,以更新节点的嵌入表示;同一演进方向下的不同的邻居节点对中心节点的注意力权值不同;
图池化层为集成边权重的边收缩池化,用于逐步抽取图更高层的信息,实现对个人疾病网络的层次化学习。
参见附图2,所述预测模型的网络结构如式所示:
式中:“for i=0 to 2 do”表示i从0开始迭代式中所述过程,直到i=2时结束迭代;当i=0时,Gi表示原个人的疾病网络G,conv表示对图中的节点进行多关系注意力卷积,v表示Gi中的节点,hv表示节点v的嵌入表示;readout表示将图中所有节点的嵌入表示聚合,具体的,可以是将所有节点的当前嵌入表示进行加和;当i>0时,pooling表示对卷积的图Gi-1进行集成边权重的边收缩池化,得到个人疾病网络更高阶的图结构Gi;
将原始个人疾病网络的嵌入表示为g0,第一层和第二层池化后的高阶个人疾病网络的嵌入表示g1和g2拼接后,通过以下计算公式得到患者的嵌入表示e,以表征患者现有的健康状况:
e=σ(W(g0||g1||g2))
式中,g0、g1、g2分别表示不同网络层输出的个人疾病网络的嵌入表示;||表示向量的拼接;W为训练参数;σ为激活函数。
式中:W和b为训练参数,e为个人疾病网络的嵌入向量。
通过梯度下降算法,对网络结构中的参数进行更新优化,实现端到端的训练。
所述多关系注意力卷积的建立如下所述:
所述个人疾病网络中,中心节点的邻居节点分为两种类型,一种是入边所关联的邻居节点,代表先于中心节点发生的疾病;一种是出边所关联的邻居节点,代表晚于中心节点发生的疾病;预测模型中的卷积结构分别学习入边关联和出边关联的节点所代表的疾病的注意力权重以及参数矩阵;并分别对入边关联和出边关联的节点所代表的疾病添加注意力机制,使得聚合过程分别赋予影响中心节点疾病最强的先发疾病和后发疾病最高的权重,按照时序方向分别聚合中心节点的领域信息。
所述邻居节点dj到中心节点di的注意力计算方式为:
式中,type(j)表示节点dj所属的关系类型;关系类型type包含in和out,分别表示入边和出边关系;αij type(j)表示在关系type(j)下,邻居节点dj对节点di的重要性;a(.)表示计算节点di和dj相关性的函数;W为训练参数;hi k、hj k分别表示节点di和dj第k层的嵌入向量;Ni type(j)表示di的一类邻居节点,该类邻居节点的关系类型为type(j);若di到dj同时有出边和入边,则dj对di的注意力权重对应有αij type(j)=in和αij type(j)=out;
将入边关联和出边关联的节点下得到的节点嵌入向量聚合为中心节点的最终嵌入向量;节点第k+1层的嵌入向量hi k+1可以由下式计算得到:
其中,Win和Wout为训练参数;αij in和αij out分别为入边和出边关系下邻居节点dj到中心节点di的注意力;σ(.)为激活函数;AGG()为聚合函数,可以是将出边注意力卷积和入边注意力卷积下得到的中心节点嵌入向量进行加和。
所述图池化层为集成边权重的边收缩池化的过程如下所述:
对个人疾病网络中的每条边di→dj计算一个分值Sij:
Sij=softmaxj(W[hi||eijhj]);
式中:eij表示边di→dj的权重;hi表示中心节点di的当前嵌入表示;hj表示di的出边所关联邻居节点dj的当前嵌入表示;W为训练参数;||表示向量拼接。
按照分值S由大到小依次选取k条不含共同端点的边组成收缩边集E={e1,e2,...,ek};将E中每条边的两个节点沿边两两归并形成一个新节点,归并前两个节点的所有连接关系合并到新节点上,并按下式更新得到新节点的嵌入向量hij:
hij=Sij(hi+hj);
式中,Sij表示边di→dj的分值,hi、hj分别表示节点di和dj的当前嵌入表示;
采用本发明的慢病风险预测模型预测患者未来的慢病风险;当利用本发明预测一个患者的患病风险时,首先需要获取该患者的历史住院记录数据和对应的住院次序信息,并以这些信息输入到个人疾病网络构建模块,已获取患者的个人疾病网络;然后,初始化个人疾病网络中的疾病节点向量表示,最后将个人疾病网络输入到训练好的慢病风险预测模型,通过慢病风险预测模型推理得到患者个体的慢病风险预测结果。
本发明将结构化数据抽象为图数据,构建个人疾病网络表示患者个体。个人疾病网络中,节点表示患者所患疾病,边表示疾病发病的时间顺序和有向疾病对出现的频率;个人疾病网络基于患者个体的历史诊断信息构建,且唯一表征该患者。其次,通过词嵌入方法生成个人疾病网络中疾病节点的初始表示。然后,基于慢病风险预测模型对个人疾病网络进行学习,从而生成对患者的嵌入表示,关注患者个体的疾病演进规律,有助于提高未来慢病风险预测的准确性。
并且本发明的个人疾病网络具有比原始结构化的数据更丰富的关系型信息,能够充分表达患者的历史疾病进展趋势。患者的历史疾病发展趋势往往指示着其未来的疾病风险,因此个人疾病网络的方向性有利于预测模型提取时序信息和疾病关系。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (9)
1.一种基于图表示学习的慢病风险预测方法,其特征在于,包括以下步骤:
步骤1:基于病案首页数据提取患者的住院记录数据,并将其储存在数据库中;
步骤2:基于数据库中的住院记录数据建立由节点和有向边构成的个人疾病网络;所述节点用于表示疾病,边的方向表示疾病出现的先后顺序,权值表示在患者个体的住院序列中,该有向边关联的有向疾病对出现的频率;
步骤3:在步骤1中提取的住院记录数据中提取训练样本,并基于训练样本定义词嵌入模型,使用噪音对比估计损失函数训练所述词嵌入模型,并基于训练好的词嵌入模型得到每个疾病的初始向量;
步骤4:基于个人疾病网络构建慢病风险预测模型;所述慢病风险预测模型由图卷积层和图池化层堆叠构成;
所述图卷积层为多关系注意力卷积,用于分别聚合不同疾病演进方向下的节点的领域信息,以更新节点的嵌入表示;同一演进方向下的不同的邻居节点对中心节点的注意力权值不同;
图池化层为集成边权重的边收缩池化,用于逐步抽取图更高层的信息,实现对个人疾病网络的层次化学习。
2.根据权利要求1所述的一种基于图表示学习的慢病风险预测方法,其特征在于,在所述步骤1中基于住院记录数据按照时间顺序聚合同一个患者的多次住院记录,并针对每个患者,选取一次住院记录作为观察窗口和预测窗口的分界线;所选取的住院记录的住院时间及其之前的住院数据定义为观察窗口,所选取的住院记录的住院时间之后的住院数据定义为预测窗口;观察窗口内的住院数据用于构建所述个人疾病网络;并在所述观察窗口内选取至少有两次住院记录的住院数据作为所述训练样本;所述预测窗口内的住院记录数据用于定义慢病标签。
4.根据权利要求1所述的一种基于图表示学习的慢病风险预测方法,其特征在于,所述词嵌入模型的训练步骤如下:
定义所述数据库中包含有N条住院记录,并将所有出现过的疾病组合成集合D,疾病di∈D;首先对疾病进行独热编码,疾病dk的独热编码c定义为:c∈{0,1}|D|,c[k]=1;对所有的j∈[0,|D|]且j≠k,c[j]=0;
将每条住院记录中的主要诊断的独热编码作为词嵌入模型的输入,次要诊断为预测标签,提取训练样本,训练词嵌入模型。
5.根据权利要求1所述的一种基于图表示学习的慢病风险预测方法,其特征在于,所述预测模型的网络结构如式所示:
式中:“for i=0 to 2 do”表示i从0开始迭代式中所述过程,直到i=2时结束迭代;当i=0时,Gi表示原个人的疾病网络G,conv表示对图中的节点进行多关系注意力卷积,v表示Gi中的节点,hv表示节点v的嵌入表示;readout表示将图中所有节点的嵌入表示聚合,具体的,将图中所有节点的当前嵌入表示进行加和;当i>0时,pooling表示对卷积的图Gi-1进行集成边权重的边收缩池化,得到个人疾病网络更高阶的图结构Gi;
将原始个人疾病网络的嵌入表示为g0,第一层和第二层池化后的高阶个人疾病网络的嵌入表示g1和g2拼接后,通过以下计算公式得到患者的嵌入表示e,以表征患者现有的健康状况:
e=σ(W(g0||g1||g2));
式中,g0、g1、g2分别表示不同网络层输出的个人疾病网络的嵌入表示;||表示向量的拼接;W为训练参数;σ为激活函数;
式中:W和b为训练参数,e为个人疾病网络的嵌入向量。
6.根据权利要求5所述的一种基于图表示学习的慢病风险预测方法,其特征在于,通过梯度下降算法对预测模型的网络结构中的参数进行更新优化,实现端到端的训练。
7.根据权利要求1所述的一种基于图表示学习的慢病风险预测方法,其特征在于,所述多关系注意力卷积的建立如下所述:
所述个人疾病网络中,中心节点的邻居节点分为两种类型,一种是入边所关联的邻居节点,代表先于中心节点发生的疾病;一种是出边所关联的邻居节点,代表晚于中心节点发生的疾病;预测模型中的卷积结构分别学习入边关联和出边关联的节点所代表的疾病的注意力权重以及参数矩阵;并分别对入边关联和出边关联的节点所代表的疾病添加注意力机制,使得聚合过程分别赋予影响中心节点疾病最强的先发疾病和后发疾病最高的权重,按照时序方向分别聚合中心节点的领域信息。
8.根据权利要求7所述的一种基于图表示学习的慢病风险预测方法,其特征在于,所述邻居节点dj到中心节点di的注意力计算方式为:
式中,type(j)表示节点dj所属的关系类型;关系类型type包含in和out,分别表示入边和出边关系;αij type(j)表示在关系type(j)下,邻居节点dj对节点di的重要性;a(.)表示计算节点di和dj相关性的函数;W为训练参数;hi k、hj k分别表示节点di和dj第k层的嵌入向量;Ni type(j)表示di的一类邻居节点,该类邻居节点的关系类型为type(j);若di到dj同时有出边和入边,则dj对di的注意力权重对应有αij type(j)=in和αij type(j)=out;
将入边关联和出边关联的节点下得到的节点嵌入向量聚合为中心节点的最终嵌入向量;节点第k+1层的嵌入向量hi k+1可以由下式计算得到:
其中,Win和Wout为训练参数;αij in和αij out分别为入边和出边关系下邻居节点dj到中心节点di的注意力;σ(.)为激活函数;AGG()为聚合函数,将出边注意力卷积和入边注意力卷积下得到的中心节点嵌入向量进行加和。
9.根据权利要求1所述的一种基于图表示学习的慢病风险预测方法,其特征在于,所述图池化层为集成边权重的边收缩池化的过程如下所述:
对个人疾病网络中的每条边di→dj计算一个分值Sij:
Sij=softmaxj(W[hi||eijhj]);
式中:eij表示边di→dj的权重;hi表示中心节点di的当前嵌入表示;hj表示di的出边所关联邻居节点dj的当前嵌入表示;W为训练参数;||表示向量拼接;
按照分值S由大到小依次选取k条不含共同端点的边组成收缩边集E={e1,e2,...,ek};将E中每条边的两个节点沿边两两归并形成一个新节点,归并前两个节点的所有连接关系合并到新节点上,并按下式更新得到新节点的嵌入向量hij:
hij=Sij(hi+hj);
式中,Sij表示边di→dj的分值,hi、hj分别表示节点di和dj的当前嵌入表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539116.7A CN114898879B (zh) | 2022-05-10 | 2022-05-10 | 一种基于图表示学习的慢病风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539116.7A CN114898879B (zh) | 2022-05-10 | 2022-05-10 | 一种基于图表示学习的慢病风险预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898879A CN114898879A (zh) | 2022-08-12 |
CN114898879B true CN114898879B (zh) | 2023-04-21 |
Family
ID=82723100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210539116.7A Active CN114898879B (zh) | 2022-05-10 | 2022-05-10 | 一种基于图表示学习的慢病风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898879B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116072298B (zh) * | 2023-04-06 | 2023-08-15 | 之江实验室 | 一种基于层级标记分布学习的疾病预测系统 |
CN117235487B (zh) * | 2023-10-12 | 2024-03-12 | 北京大学第三医院(北京大学第三临床医学院) | 一种用于预测哮喘患者住院事件的特征提取方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778014A (zh) * | 2016-12-29 | 2017-05-31 | 浙江大学 | 一种基于循环神经网络的患病风险预测方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210081717A1 (en) * | 2018-05-18 | 2021-03-18 | Benevolentai Technology Limited | Graph neutral networks with attention |
US11380443B2 (en) * | 2018-09-27 | 2022-07-05 | International Business Machines Corporation | Predicting non-communicable disease with infectious risk factors using artificial intelligence |
CN111916145B (zh) * | 2020-07-24 | 2022-03-11 | 湖南大学 | 基于图表示学习的新冠病毒靶标预测和药物发现方法 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
US20240023876A1 (en) * | 2020-08-24 | 2024-01-25 | The Trustees Of The Stevens Institute Of Technology | Explainable cnn-attention network (c-attention network) architecture for automated detection of alzheimer's disease |
US11257594B1 (en) * | 2020-12-16 | 2022-02-22 | Ro5 Inc. | System and method for biomarker-outcome prediction and medical literature exploration |
CN113345564B (zh) * | 2021-05-31 | 2022-08-05 | 电子科技大学 | 一种基于图神经网络的患者住院时长早期预测方法及装置 |
CN113535974B (zh) * | 2021-06-28 | 2024-04-09 | 科大讯飞华南人工智能研究院(广州)有限公司 | 诊断推荐方法及相关装置、电子设备、存储介质 |
CN113990495B (zh) * | 2021-12-27 | 2022-04-29 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
-
2022
- 2022-05-10 CN CN202210539116.7A patent/CN114898879B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778014A (zh) * | 2016-12-29 | 2017-05-31 | 浙江大学 | 一种基于循环神经网络的患病风险预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114898879A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114898879B (zh) | 一种基于图表示学习的慢病风险预测方法 | |
CN106778014B (zh) | 一种基于循环神经网络的患病风险预测建模方法 | |
CN113616184B (zh) | 基于多模态磁共振图像的脑网络建模与个体预测方法 | |
CN111261282A (zh) | 一种基于机器学习的脓毒症早期预测方法 | |
CN113052333A (zh) | 基于联邦学习进行数据分析的方法及系统 | |
CN111834012A (zh) | 基于深度学习和注意力机制的中医证候诊断方法及装置 | |
CN110136109B (zh) | 一种基于膨胀卷积神经网络的mci分类方法 | |
CN111951975A (zh) | 一种基于深度学习模型gpt-2的脓毒症早期预警方法 | |
CN112529063B (zh) | 一种适用于帕金森语音数据集的深度域适应分类方法 | |
CN113223656A (zh) | 一种基于深度学习的药物组合预测方法 | |
CN113274031A (zh) | 一种基于深度卷积残差网络的心律失常分类方法 | |
CN115579141A (zh) | 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置 | |
KR20230070085A (ko) | 뇌 네트워크를 이용한 알츠하이머병에 대한 진단정보 제공방법 | |
CN112201348B (zh) | 基于知识感知的多中心临床数据集适配设备 | |
Alotaibi et al. | Stroke in-patients' transfer to the ICU using ensemble based model | |
CN116797817A (zh) | 基于自监督图卷积模型的自闭症疾病预测技术 | |
CN115147768B (zh) | 一种跌倒风险评估方法及系统 | |
Wang et al. | Early Diagnosis of Parkinson's Disease with Speech Pronunciation Features Based on XGBoost Model | |
CN113658688A (zh) | 基于无分词深度学习的临床决策支持方法 | |
CN111882045A (zh) | 基于可微神经结构搜索的大脑时-空网络分解方法及系统 | |
CN117079821B (zh) | 一种患者住院事件预测方法 | |
CN117235487B (zh) | 一种用于预测哮喘患者住院事件的特征提取方法和系统 | |
CN114610950B (zh) | 一种图网络节点表示方法 | |
CN117409978B (zh) | 一种疾病预测模型构建方法、系统、装置及可读存储介质 | |
CN115830400B (zh) | 一种基于联邦学习机制的数据识别方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |