CN117235487B - 一种用于预测哮喘患者住院事件的特征提取方法和系统 - Google Patents
一种用于预测哮喘患者住院事件的特征提取方法和系统 Download PDFInfo
- Publication number
- CN117235487B CN117235487B CN202311315662.3A CN202311315662A CN117235487B CN 117235487 B CN117235487 B CN 117235487B CN 202311315662 A CN202311315662 A CN 202311315662A CN 117235487 B CN117235487 B CN 117235487B
- Authority
- CN
- China
- Prior art keywords
- node
- network
- graph
- item
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000006673 asthma Diseases 0.000 title claims abstract description 51
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 230000036541 health Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000012216 screening Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 64
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 12
- 230000007246 mechanism Effects 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 210000004369 blood Anatomy 0.000 description 5
- 239000008280 blood Substances 0.000 description 5
- 230000036772 blood pressure Effects 0.000 description 5
- 206010020772 Hypertension Diseases 0.000 description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 239000001301 oxygen Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004820 blood count Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 208000014085 Chronic respiratory disease Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种用于预测哮喘患者住院事件的特征提取方法和系统,属于医疗健康技术领域,解决了现有技术中特征多训练效率低,不能精确进行预测的问题。方法包括:获取哮喘患者的健康相关数据;对所述健康相关数据进行筛选得到初始特征项;构建图注意力网络,所述图注意力网络包括多层图注意力层;每层图注意力层的节点与所述初始特征项对应;基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络;基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项。实现了预测患者住院事件的特征的快速精确提取。
Description
技术领域
本发明涉及医疗健康技术领域,尤其涉及一种用于预测哮喘患者住院事件的特征提取方法和系统。
背景技术
哮喘是全球范围内一种常见的慢性呼吸道疾病,属于呼吸道的反复性疾病,患者经常需要入院治疗。预测哮喘导致的住院需求会对个人和公共健康产生重大影响,同时这对医疗资源的配置和护理水平提供指导至关重要。在此之前,预测模型主要依靠临床医生的经验判断以及常规的统计方法,如回归分析等。然而,这些方法具有局限性,往往无法揭示复杂的健康数据与哮喘住院之间的关系。例如,回归模型要求预定义特征与结果之间的关系,并且往往在面对复杂的非线性关系和高维度的数据时效果有限。此外,这些模型通常不考虑环境因素,如气象和空气质量数据,这些因素已被证明与哮喘发作的可能性有关。
近年来,机器学习和深度学习技术在许多领域都取得了突破性的进展,包括医疗健康领域。然而,大部分初步的机器学习模型包括决策树、逻辑回归(LR,LogisticRegression)和随机森林(RF,Random Forest)等,其预测性能或辨识力仍有待提高。在采用深度学习等方法进行患者住院事件预测时,与患者相关的健康、环境等数据量非常大,现有方法使用大量的特征数据,训练效率低,不能精确、高效进行患者住院事件预测。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种用于预测哮喘患者住院事件的特征提取方法,用以解决现有预测哮喘患者住院事件的特征数量大,训练效率低,不能精确进行预测的问题。
一方面,本发明实施例提供了一种用于预测哮喘患者住院事件的特征提取方法,包括以下步骤:
获取哮喘患者的健康相关数据,对所述健康相关数据进行筛选得到初始特征项;
构建图注意力网络,所述图注意力网络包括多层图注意力层;每层图注意力层的节点与所述初始特征项对应;基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络;
基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项。
基于上述方案的进一步改进,采用以下公式计算图注意力网络中每个节点的重要度:
其中,eij表示图注意力网络的最后一层图注意力层中第j个节点到第i个节点的边的注意力权重,N(i)表示第i个节点的相邻节点。
基于上述方案的进一步改进,基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络,包括:
对于每个训练批次,基于每项初始特征项对应的患者的健康相关数据构建图注意力网络的第一层图注意力层的节点的输入特征向量;上一层图注意力层中每个节点的输出特征向量为下一层图注意层中对应节点的输入特征向量;
每层图注意力层中,基于网络参数根据输入特征向量计算得到输出特征向量;
基于最后一层图注意力层中每个节点的输出特征向量通过分类网络进行住院事件预测;基于预测的损失更新图注意力网络的网络参数;更新网络参数后继续进行下一个批次的训练;
当达到预设的训练条件则停止训练,得到训练好的图注意力网络。
基于上述方案的进一步改进,每层图注意力层中,基于网络参数根据输入特征向量计算得到输出特征向量,包括:
对于第i个节点,基于图注意力网络的网络参数计算每个邻居节点对第i个节点的的注意力权重eij;
对注意力权重进行归一化
基于归一化后的注意力权重计算第i个节点的输出特征向量hi′=∑j∈N(i)αijReLU(hj);
其中,N(i)表示第i个节点的相邻节点,hj分别是第j个节点的特征向量。
基于上述方案的进一步改进,采用以下公式计算预测的损失:
其中,W3是分类网络的网络参数矩阵,H’表示分类网络的输入特征向量,表示分类网络得到的预测结果,Y表示患者住院事件标签,|Ws|表示第s个网络参数矩阵的范数。
基于上述方案的进一步改进,基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项,包括:
采用公式计算每项初始特征项的支持度/>其中,I(fi)表示第i个初始特征项的数据支持度,J(fi)表示第i个初始特征项的文献支持度,Ei表示第i个节点的重要度;
若初始特征项的支持度大于第三阈值,则将其作为预测特征项。
基于上述方案的进一步改进,
采用以下公式计算第i个初始特征项的数据支持度:
其中,N(fi)表示在获取的患者的健康相关数据中,第i个初始特征项对应数据不为空的患者的数量,N表示患者的总数量。
基于上述方案的进一步改进,
采用以下公式计算第i个初始特征项的文献支持度:
L(fi)表示公开第i个初始特征项和哮喘相关的文献的最高影响因子。
基于上述方案的进一步改进,基于所述健康相关数据确定初始特征项,包括:
对数值型的健康相关数据进行预处理,所述预处理包括离群点剔除、缺失值填补和归一化;
基于预处理后的健康相关数据根据相似度度量确定初始特征项。
另一方面,本发明实施例提供了一种用于预测哮喘患者住院事件的特征提取系统,包括以下模块:
初始特征确定模块,用于获取哮喘患者的健康相关数据对所述健康相关数据进行筛选得到初始特征项;
网络训练模块,用于构建图注意力网络,所述图注意力网络包括多层图注意力层;每层图注意力层的节点与所述初始特征项对应;基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络;
预测特征确定模块,用于基于训练好的所述图注意力网络中每个节点的重要度以及每个节点的支持度,基于每个节点的重要度和支持度得到用于预测哮喘患者住院事件的特征项。
与现有技术相比,本实施例提供的预测哮喘患者住院事件的特征提取方法首先通过对健康数据进行初筛确定初始特征项,然后通过构建图注意力网络,利用图注意力机制进行预测,根据图注意力的训练结果以及特征的支持度从而筛选出可用于精准预测患者住院事件的预测特征项,在精确预测患者住院事件的同时大大减少了患者住院事件预测的特征项,提高了预测效率和性能,提高了医疗资源的预测效率,同时也使临床医生能够对预测结果有更深入的理解,以帮助其做出更好的临床决策。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例用于预测哮喘患者住院事件的特征提取方法的流程图;
图2为本发明实施例用于预测哮喘患者住院事件的特征提取系统的框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种用于预测哮喘患者住院事件的特征提取方法,如图1所示,包括以下步骤:
S1、获取哮喘患者的健康相关数据,对所述健康相关数据进行筛选得到初始特征项;
S2、构建图注意力网络,所述图注意力网络包括多层图注意力层;每层图注意力层的节点与所述初始特征项对应;基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络;
S3、基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项。
与现有技术相比,本实施例提供的预测哮喘患者住院事件的特征提取方法首先通过对健康数据进行初筛确定初始特征项,然后通过构建图注意力网络,利用图注意力机制进行预测,根据图注意力的训练结果以及特征的支持度从而筛选出可用于精准预测患者住院事件的预测特征项,在精确预测患者住院事件的同时大大减少了患者住院事件预测的特征项,提高了预测效率和性能,提高了医疗资源的预测效率,同时也使临床医生能够对预测结果有更深入的理解,以帮助其做出更好的临床决策。
实施时,健康相关数据包括临床数据和时序环境数据。患者的临床数据包括患者的人口统计数据(例如性别、年龄等)、生命体征数据(例如血压、血样饱和度等)、实验室检查数据(例如白细胞计数、红细胞计数等)、并发症数据(例如是否伴有高血压等并发症)、以及分诊时初始疾病的严重程度。初始病情严重程度可由中国急诊分诊量表(CETS)评估得到。CETS对患者的紧迫性进行评分,初始病情严重程度分为四档:1濒死;2危重;3急症;4非急。
时序环境数据为患者居住地的环境数据,包括患者急诊就诊当天,急诊就诊前1天直到急诊就诊前30天的每日NO2浓度、SO2浓度、CO浓度、O3浓度、PM2.5浓度、PM10浓度、温度、风速、相对湿度、气压等数据。
患者的住院事件分为无需住院、入住普通病房、入住重症监护病房三种类型,编码后作为患者的标签数据。
患者的健康相关数据包括数值型数据和类别型数据。数值型的健康相关数据例如年龄、血压、血氧饱和度、就诊前24小时的气压平均值等数据,类别型数据例如性别、是否有高血压病史等。对于类别型数据根据每项数据的类型数量转化为对应的数值化元素,用于后续进行计算,例如对于性别项,男性对应的数值为0,女性对应的数值为1。
具体的,步骤S1中对所述健康相关数据进行筛选得到初始特征项,包括:
S11、对数值型的健康相关数据进行预处理,所述预处理包括离群点剔除、缺失值填补和归一化;
对于数值型的健康相关数据,为了使得后续训练结果更精确,首先通过离群点检测剔除离群点数据。实施时,通过以下方式计算每个患者的离群度。
计算每个患者的高杠杆率hi:
其中,xi表示第i个患者的健康相关数据构成的向量,表示所有患者的健康相关数据的均值构成的向量,N表示患者数量。
根据以下公式计算第i个患者的离群度Di:
其中,yi表示第i个患者的标签,表示以患者的健康相关数据为自变量,以患者的标签为因变量进行线性回归拟合后,第i患者的拟合结果,p表示患者的健康相关数据的项数,S表示线性回归拟合结果的标准差。
计算每个患者的离群度后,剔除离群度结果大于第一阈值的患者数据,从而剔除离群数据。
对于余下的患者健康相关数据中存在的缺失值,可通过填充为该项数据的中值来补充。
为了避免不同数据项量级的差异对模型训练结果的不良影响,通过归一化操作将数值类的数据项的数值标椎化至0~1的范围内。
数据预处理后,为了便于后续计算,将每项健康数据项的长度对齐,例如都调整为k维长度的向量,将长度小于k维的数据项补0来对齐。
S12、基于预处理后的健康相关数据根据相似度度量确定初始特征项。
数据预处理后,每项健康相关数据项均是候选的特征项,由于特征项较多,需要对特征项进行初步筛选以减少冗余项,得到初始特征项。
首先,根据医生的临床经验从候选的特征项中选出最可能影响影响患者住院的几项特征项作为初始特征项,例如,根据临床经验,年龄、并发症、以及分诊时初始疾病的严重程度对患者住院影响较大,将其加入初始特征项集合中。
对于其他候选的每个特征项,计算其与当前初始特征项集合中每个特征项的相似度,若与当前初始特征项集合中某个特征项的相似度超过第二阈值,则该候选的特征项为冗余特征项,则其不作为初始特征项,若当前候选的特征项与当前初始特征项集合中每个特征项的相似度都小于第二阈值,在将该候选的特征项加入初始特征项集合中。所有候选的特征项都遍历后,初始特征项集合中的特征项即为确定的初始特征项。实施时,第二阈值根据相似度评估的精度要求设置。
例如,对于患者的血压数据项,剔除离群点后的所有患者的血压数据作为血压特征项的向量,对于患者的血氧饱和度数据项,剔除离群点后的所有患者的血氧饱和度作为血氧饱和度特征项的向量,可通过两个向量的内积计算其相似度,内积值越大,相似度越高。计算公式如下:
sim(fi,fj)=fi·fj
其中,fi表示第i项特征项的向量,fj表示第j项特征项的向量。sim(fi,fj)表示两个特征项的相似度。
得到初始特征项后,以每项初始特征项作为图注意力网络的节点,以初始特征项间的影响关系以及初始特征项间的时序关系为边构建图注意力网络。
实施时,每个初始特征项作为图注意力网络中的一个节点,其可能是患者的临床数据,也可能是环境数据。
节点的边代表节点间的影响关系。临床数据项间的影响关系可根据疾病的转归以及医生的临床先验知识建立,例如,年龄对高血压有影响,可以在年龄和高血压之间建立边连接。环境变量之间则可以根据时间顺序连接。此外,因为环境变量可能会影响患者的生命体征、生理指标等,因此,可根据先验知识确定节点间的连接关系。为了避免先验知识不足对模型造成影响,实施时,也可以对所有节点间都建立连接边,通过训练模型得到每条边的权重系数(注意力权重),权重系数越大影响关系越大,权重系数越小影响关系越小,可以删除权重系数较小的边,从而根据训练后的权重系数的大小来确定节点间的连接关系。搭建好图注意力网络后通过基于患者数据对构建的图注意力网络结构进行训练,更新图注意力网络的参数。具体的,步骤S2中基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络,包括:
对于每个训练批次,基于每项初始特征项对应的患者的健康相关数据构建图注意力网络的第一层图注意力层的节点的输入特征向量;上一层图注意力层中每个节点的输出特征向量为下一层图注意层中对应节点的输入特征向量;
每层图注意力层中,基于网络参数根据输入特征向量计算得到输出特征向量;
基于最后一层图注意力层中每个节点的输出特征向量通过分类网络进行住院事件预测;基于预测的损失更新图注意力网络的网络参数;更新网络参数后继续进行下一个批次的训练;
当达到预设的训练条件则停止训练,得到训练好的图注意力网络。
实施时,预处理后的患者数据分批次的输入构建的图注意力网络中进行网络训练。对于每个训练批次,图注意力网络的第一层图注意力层中每个节点的向量为该批次患者的该节点对应的初始特征项的数据构成的向量。上一层图注意力层中每个节点的输出特征向量为下一层图注意力层中对应节点的输入特征向量,最后一层图注意力层中每个节点的输出特征向量作为分类网络的输入特征进行患者住院事件预测。从而通过多层叠加,提取深层特征,提高预测精度。每一层图注意力层中,通过注意力机制基于网络参数根据输入特征向量计算得到输出特征向量。
初始时,图注意力网络的网络参数为随机设置的。由于临床数据和环境数据是两种不同模态的数据。对不同类型的边,分别使用注意力机制计算其注意力权重,再根据注意力权重更新节点特征。临床变量和环境变量之间的边视为跨模态边,需要用到跨模态注意力机制。同一模态内的边则用单模态注意力机制。
具体的,每层图注意力层中,基于网络参数根据输入特征向量计算得到输出特征向量,包括:
S221、对于第i个节点,基于图注意力网络的网络参数计算每个邻居节点对第i个节点的的注意力权重eij;
S222、对注意力权重进行归一化
S223、基于归一化后的注意力权重计算第i个节点的输出特征向量hi′=∑j∈N(i)αijReLU(hj);
其中,N(i)表示第i个节点的相邻节点,hj分别是第j个节点的特征向量。
若第i个节点到第j个节点存在边,且第i个节点到第j个节点为同一个模态内部的节点,则采用单模态注意力机制计算注意力权重。
假设第一图注意力网络中的单模态的网络参数矩阵为W1通过注意力机制,我们可以计算任意一对边(i,j)的注意力权重,表示为eij。注意力权重的含义是第j个节点到第i个节点的特征重要性,eij计算表达式为:
eij=LeakyReLU(W1(hi∥hj));
其中LeakyReLU(·)为激活函数,“∥”表示连接操作,hi和hj分别是第i个节点和第j个节点的特征向量。
若第i个节点和第j个节点存在边,且第i个节点和第j个节点为不同模态的节点,则采用多模态注意力机制计算注意力权重。
假设跨模态的网络参数矩阵为W2,我们可以计算跨模态边上一对有向边(i,j)的注意力权重。
eij=LeakyReLU(w2(hi∥hj))
其中,hi和hj分别是第i个节点和第j个节点的特征向量。
计算第i个节点的每个相邻节点对应的注意力权重后,对注意力权重进行归一化。
实施时,然后通过softmax(·)函数进行归一化得到归一化后的注意力权重αij,αij计算表达式为:
其中,N(i)是第i个节点的相邻节点。
得到归一化后的注意力权重后,基于归一化后的注意力权重计算第i个节点更新后的特征向量。
第i个节点更新后的特征向量hi′是其所有相邻节点特征的注意力权重加权和,hi′计算表达式为:
hi′=∑j∈N(i)αijReLU(hj);
其中,ReLU(·)为激活函数。
得到每个节点对应的更新后的特征向量后,基于更新后的特征向量进行住院事件预测。
实施时,将最后一层图注意力层中每个节点对应的输出特征向量拼接在一起,作为输入输入到分类网络中,进行患者住院事件预测,分类网络可采用MLP(多层感知网络)。
然后,通过预测的损失反向传播更新图注意力网络和分类网络的网络参数。
具体的,采用以下公式计算预测的损失:
其中,W3是分类网络的网络参数矩阵,H’表示分类网络的输入特征向量,表示分类网络得到的预测结果,Y表示患者住院事件标签,|Ws|表示第s个网络参数矩阵的范数,即图注意力网络中的两个网络参数矩阵W1、W2和分类网络中的网络参数矩阵W3,λ为超参数,用于控制正则化的大小。
通过对网络进行多次迭代训练,当达到预设的训练条件则停止训练,得到训练好的图注意力网络。预设的训练条件可以是达到预设的迭代次数,或者达到预设的训练精度。
得到训练好的图注意力网络后,基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项。
具体的,采用以下公式计算图注意力网络中每个节点的重要度:
Ei=∑j∈N(i)eij
其中,eij表示图注意力网络的最后一层图注意力层中第j个节点到第i个节点的边的注意力权重,N(i)表示第i个节点的相邻节点。
通过根据图注意力网络中每条边的注意力权重计算每个节点的重要度,从而根据训练结果,度量每个节点对患者住院预测的重要程度,使结果更加客观准确。
具体的,步骤S3中基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项包括:
S31、采用公式计算每项初始特征项的支持度/>其中,I(fi)表示第i个初始特征项的数据支持度,J(fi)表示第i个初始特征项的文献支持度,Ei表示第i个节点的重要度;
S32、若初始特征项的支持度大于第三阈值,则将其作为预测特征项。
预测特征不仅需要有训练的权重的支持,还需要有相关数据量以及理论文献的支持,因此,每项初始特征项的支持度包括每个节点的注意力权重、数据量上的支持度和文献影响上的支持度。
实施时,采用公式Ei=∑j∈N(i)eij,计算训练好的第一图注意力网络中每个节点的重要度。从而从模型训练得到的权重角度评估特征对哮喘住院的影响。
每项初始特征项对应的数据量的支持度和文献影响上的支持度只有达到一定门限,才会被纳入可选的范围,因此,实施时采用以下公式计算第i个初始特征项的数据支持度:
其中,N(fi)表示在最初获取的患者的健康相关数据中,第i个初始特征项对应数据不为空的患者的数量,N表示患者的总数量。
采用以下公式计算第i个初始特征项的文献支持度:
其中,L(fi)表示公开第i个初始特征项和哮喘相关的文献的最高影响因子。
例如,对于PM10相关的特征项,收集所有研究PM10和哮喘相关因素的文献,取其中最高的文献影响因子,作为PM10相关特征项对应的最高影响因子L(fi),从而基于最高影响因子计算PM10相关特征项量对应的文献支持度。
通过考虑网络训练得到的注意力特征、特征项对应的数据支持度和文献支持度,从而能够更加客观全面的评估特征对应哮喘患者住院的影响,使得特征筛选更加准确有效,提高预测的精度以及减小计算规模。
通过计算每个初始特征项的支持度,从其中筛选出支持度高的初始特征项(支持度大于第三阈值),则将其作为预测特征项。实施时,第三阈值可根据训练速度和精度要求设置。
得到预测特征项后,可将训练好的图注意力网络中不是预测特征项的节点以及该节点连接的边删除,保留预测特征项,并且删除预测特征项间注意力权重值小于第四阈值的边,从而对图注意力网络进行调整实施时,第四阈值可以根据模型的训练精度和速度的要求设置。通过调整,将对患者住院预测作用小的特征去除,并且删除影响关系小的边,从而更加精准的进行患者住院事件预测,并且计算量小,计算效率高。
基于预处理后的患者数据,按照前述训练图注意力网络的过程对调整后的图注意力网络进行训练,得到训练好的调整后的图注意力网络。由于调整后的图注意力网络是在训练好的图注意力网络基础上得到的,因此,训练会很快收敛。
对于待预测的患者,通过获取预测特征项对应的健康相关数据,将待预测患者的预测特征项的对应的健康相关数据输入训练好的调整后的图注意力网络得到对应的特征向量,将特征向量输入分类网络即可得到待预测患者的住院事件预测结果。
在图注意力网络中,每一条边的权重实际上就是通过注意力机制计算得到的注意力系数。这些系数表示的是在节点特征更新过程中,一个节点对其相邻节点特征的重视程度,或者说是相邻节点对当前节点特征更新的贡献度。通过分析这些注意力系数,我们可以理解到每个临床变量或环境变量在整个网络中的重要性。比如说,某个环境变量的特征向量在各个节点更新过程中都起着较大的作用,对应的注意力系数都相对较高,那么我们就可以认为这个环境事件ei对哮喘住院事件的影响可能较大。
根据以上分析结果能够提取出对哮喘患者住院事件影响最大的因素,可以更精准地帮助医生对患者的住院情况进行分类,大大提高了效率,节约医疗资源。
另一方面,本发明实施例提供了一种用于预测哮喘患者住院事件的特征提取系统,包括以下模块:
初始特征确定模块,用于获取哮喘患者的健康相关数据对所述健康相关数据进行筛选得到初始特征项;
网络训练模块,用于构建图注意力网络,所述图注意力网络包括多层图注意力层;每层图注意力层的节点与所述初始特征项对应;基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络;
预测特征确定模块,用于基于训练好的所述图注意力网络中每个节点的重要度以及每个节点的支持度,基于每个节点的重要度和支持度得到用于预测哮喘患者住院事件的特征项。
上述方法实施例和系统实施例,基于相同的原理,其相关之处可相互借鉴,且能达到相同的技术效果。具体实施过程参见前述实施例,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种用于预测哮喘患者住院事件的特征提取方法,其特征在于,包括以下步骤:
获取哮喘患者的健康相关数据,对所述健康相关数据进行筛选得到初始特征项;
构建图注意力网络,所述图注意力网络包括多层图注意力层;每层图注意力层的节点与所述初始特征项对应;基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络;
基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项;
采用以下公式计算图注意力网络中每个节点的重要度:
Ei=∑j∈N(i)eij
其中,eij表示图注意力网络的最后一层图注意力层中第j个节点到第i个节点的边的注意力权重,N(i)表示第i个节点的相邻节点;
基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络,包括:
对于每个训练批次,基于每项初始特征项对应的患者的健康相关数据构建图注意力网络的第一层图注意力层的节点的输入特征向量;上一层图注意力层中每个节点的输出特征向量为下一层图注意层中对应节点的输入特征向量;
每层图注意力层中,基于网络参数根据输入特征向量计算得到输出特征向量;
基于最后一层图注意力层中每个节点的输出特征向量通过分类网络进行住院事件预测;基于预测的损失更新图注意力网络的网络参数;更新网络参数后继续进行下一个批次的训练;
当达到预设的训练条件则停止训练,得到训练好的图注意力网络;
基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项,包括:
采用公式计算每项初始特征项的支持度/>其中,I(fi)表示第i个初始特征项的数据支持度,J(fi)表示第i个初始特征项的文献支持度,Ei表示第i个节点的重要度;
若初始特征项的支持度大于第三阈值,则将其作为预测特征项;
采用以下公式计算第i个初始特征项的数据支持度:
其中,N(fi)表示在获取的患者的健康相关数据中,第i个初始特征项对应数据不为空的患者的数量,N表示患者的总数量;
采用以下公式计算第i个初始特征项的文献支持度:
L(fi)表示公开第i个初始特征项和哮喘相关的文献的最高影响因子。
2.根据权利要求1所述的用于预测哮喘患者住院事件的特征提取方法,其特征在于,每层图注意力层中,基于网络参数根据输入特征向量计算得到输出特征向量,包括:
对于第i个节点,基于图注意力网络的网络参数计算每个邻居节点对第i个节点的的注意力权重eij;
对注意力权重进行归一化
基于归一化后的注意力权重计算第i个节点的输出特征向量hi′=∑j∈N(i)αij ReLU(hj);
其中,N(i)表示第i个节点的相邻节点,hj分别是第j个节点的特征向量。
3.根据权利要求1所述的用于预测哮喘患者住院事件的特征提取方法,其特征在于,采用以下公式计算预测的损失:
其中,W3是分类网络的网络参数矩阵,H’表示分类网络的输入特征向量,表示分类网络得到的预测结果,Y表示患者住院事件标签,|Ws|表示第s个网络参数矩阵的范数。
4.根据权利要求1所述的用于预测哮喘患者住院事件的特征提取方法,其特征在于,基于所述健康相关数据确定初始特征项,包括:
对数值型的健康相关数据进行预处理,所述预处理包括离群点剔除、缺失值填补和归一化;
基于预处理后的健康相关数据根据相似度度量确定初始特征项。
5.一种用于预测哮喘患者住院事件的特征提取系统,其特征在于,包括以下模块:
初始特征确定模块,用于获取哮喘患者的健康相关数据对所述健康相关数据进行筛选得到初始特征项;
网络训练模块,用于构建图注意力网络,所述图注意力网络包括多层图注意力层;每层图注意力层的节点与所述初始特征项对应;基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络;
预测特征确定模块,用于基于训练好的所述图注意力网络中每个节点的重要度以及每个节点的支持度,基于每个节点的重要度和支持度得到用于预测哮喘患者住院事件的特征项;
采用以下公式计算图注意力网络中每个节点的重要度:
Ei=∑j∈N(i)eij
其中,eij表示图注意力网络的最后一层图注意力层中第j个节点到第i个节点的边的注意力权重,N(i)表示第i个节点的相邻节点;
基于初始特征项对应的患者的健康相关数据训练所述图注意力网络得到训练好的图注意力网络,包括:
对于每个训练批次,基于每项初始特征项对应的患者的健康相关数据构建图注意力网络的第一层图注意力层的节点的输入特征向量;上一层图注意力层中每个节点的输出特征向量为下一层图注意层中对应节点的输入特征向量;
每层图注意力层中,基于网络参数根据输入特征向量计算得到输出特征向量;
基于最后一层图注意力层中每个节点的输出特征向量通过分类网络进行住院事件预测;基于预测的损失更新图注意力网络的网络参数;更新网络参数后继续进行下一个批次的训练;
当达到预设的训练条件则停止训练,得到训练好的图注意力网络;
基于训练好的所述图注意力网络中每个节点的重要度计算每个节点的支持度,基于每个节点的支持度得到用于预测哮喘患者住院事件的特征项,包括:
采用公式计算每项初始特征项的支持度/>其中,I(fi)表示第i个初始特征项的数据支持度,J(fi)表示第i个初始特征项的文献支持度,Ei表示第i个节点的重要度;
若初始特征项的支持度大于第三阈值,则将其作为预测特征项;
采用以下公式计算第i个初始特征项的数据支持度:
其中,N(fi)表示在获取的患者的健康相关数据中,第i个初始特征项对应数据不为空的患者的数量,N表示患者的总数量;
采用以下公式计算第i个初始特征项的文献支持度:
L(fi)表示公开第i个初始特征项和哮喘相关的文献的最高影响因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311315662.3A CN117235487B (zh) | 2023-10-12 | 2023-10-12 | 一种用于预测哮喘患者住院事件的特征提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311315662.3A CN117235487B (zh) | 2023-10-12 | 2023-10-12 | 一种用于预测哮喘患者住院事件的特征提取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235487A CN117235487A (zh) | 2023-12-15 |
CN117235487B true CN117235487B (zh) | 2024-03-12 |
Family
ID=89096708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311315662.3A Active CN117235487B (zh) | 2023-10-12 | 2023-10-12 | 一种用于预测哮喘患者住院事件的特征提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235487B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493933A (zh) * | 2018-08-08 | 2019-03-19 | 浙江大学 | 一种基于注意力机制的不良心血管事件的预测装置 |
CN113889219A (zh) * | 2021-10-29 | 2022-01-04 | 华中科技大学 | 一种用于慢性阻塞性肺疾病的药物推荐方法及系统 |
CN114898879A (zh) * | 2022-05-10 | 2022-08-12 | 电子科技大学 | 一种基于图表示学习的慢病风险预测方法 |
CN115204509A (zh) * | 2022-07-27 | 2022-10-18 | 四川省医学科学院·四川省人民医院 | 一种呼吸系统住院病人数量预测方法 |
CN115602299A (zh) * | 2022-10-17 | 2023-01-13 | 秦朗(Cn) | 一种基于深度学习的icu辅助干预手段预测方法 |
WO2023124190A1 (zh) * | 2021-12-27 | 2023-07-06 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230178199A1 (en) * | 2020-01-13 | 2023-06-08 | Knowtions Research Inc. | Method and system of using hierarchical vectorisation for representation of healthcare data |
-
2023
- 2023-10-12 CN CN202311315662.3A patent/CN117235487B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493933A (zh) * | 2018-08-08 | 2019-03-19 | 浙江大学 | 一种基于注意力机制的不良心血管事件的预测装置 |
CN113889219A (zh) * | 2021-10-29 | 2022-01-04 | 华中科技大学 | 一种用于慢性阻塞性肺疾病的药物推荐方法及系统 |
WO2023124190A1 (zh) * | 2021-12-27 | 2023-07-06 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN114898879A (zh) * | 2022-05-10 | 2022-08-12 | 电子科技大学 | 一种基于图表示学习的慢病风险预测方法 |
CN115204509A (zh) * | 2022-07-27 | 2022-10-18 | 四川省医学科学院·四川省人民医院 | 一种呼吸系统住院病人数量预测方法 |
CN115602299A (zh) * | 2022-10-17 | 2023-01-13 | 秦朗(Cn) | 一种基于深度学习的icu辅助干预手段预测方法 |
Non-Patent Citations (1)
Title |
---|
RSNA2018儿科影像学;田芷瑶;朱小虎;曾光;姚静;邵剑波;;放射学实践;20190420(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117235487A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7161274B2 (ja) | 先を見越した健康監視及び管理のための個別化されたデバイス推奨 | |
Ibrahim et al. | GHS-NET a generic hybridized shallow neural network for multi-label biomedical text classification | |
CN111261282A (zh) | 一种基于机器学习的脓毒症早期预测方法 | |
Huddar et al. | Predicting complications in critical care using heterogeneous clinical data | |
Li et al. | Predicting clinical outcomes with patient stratification via deep mixture neural networks | |
Gupta et al. | Utilizing time series data embedded in electronic health records to develop continuous mortality risk prediction models using hidden Markov models: a sepsis case study | |
Priya et al. | A novel intelligent approach for predicting atherosclerotic individuals from big data for healthcare | |
Alkaragole et al. | Comparison of data mining techniques for predicting diabetes or prediabetes by risk factors | |
Nguyen et al. | AI in the intensive care unit: up-to-date review | |
Saraswat et al. | Prediction Model for the Healthcare Industry Using Machine Learning | |
Sampath et al. | Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
Adigun et al. | Classification of Diabetes Types using Machine Learning | |
Rajan et al. | Artificial intelligence in healthcare: Algorithms and decision support systems | |
Zhang et al. | Real-time Prediction for Mechanical Ventilation in COVID-19 Patients using A Multi-task Gaussian Process Multi-objective Self-attention Network | |
CN117235487B (zh) | 一种用于预测哮喘患者住院事件的特征提取方法和系统 | |
Siddiqa et al. | Robust Length of Stay Prediction Model for Indoor Patients. | |
Poolsawad et al. | Feature selection approaches with missing values handling for data mining-a case study of heart failure dataset | |
Sideris et al. | A data-driven feature extraction framework for predicting the severity of condition of congestive heart failure patients | |
Ono et al. | Introduction to supervised machine learning in clinical epidemiology | |
CN117079821B (zh) | 一种患者住院事件预测方法 | |
Shi et al. | Analysis of electronic health records based on long short‐term memory | |
Pandit et al. | Artificial neural networks in healthcare: A systematic review | |
Bhardwaj et al. | Improved healthcare monitoring of coronary heart disease patients in time-series fashion using deep learning model | |
Rajmohan et al. | G-Sep: A deep learning algorithm for detection of long-term sepsis using bidirectional gated recurrent unit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |