CN117079821B - 一种患者住院事件预测方法 - Google Patents
一种患者住院事件预测方法 Download PDFInfo
- Publication number
- CN117079821B CN117079821B CN202311314877.3A CN202311314877A CN117079821B CN 117079821 B CN117079821 B CN 117079821B CN 202311314877 A CN202311314877 A CN 202311314877A CN 117079821 B CN117079821 B CN 117079821B
- Authority
- CN
- China
- Prior art keywords
- patient
- network
- attention network
- item
- related data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000036541 health Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 60
- 230000007613 environmental effect Effects 0.000 claims description 15
- 208000006673 asthma Diseases 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 5
- 239000008280 blood Substances 0.000 description 5
- 230000036772 blood pressure Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 206010020772 Hypertension Diseases 0.000 description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 239000001301 oxygen Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004820 blood count Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 208000014085 Chronic respiratory disease Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种患者住院事件预测方法,属于医疗健康技术领域,解决了现有技术中训练效率低,不能精确进行预测的问题。方法包括:获取患者的健康相关数据;基于健康相关数据确定初始特征项;构建第一图注意力网络,基于初始特征项对应的患者的健康相关数据训练第一图注意力网络得到训练好的第一图注意力网络;基于训练好的第一图注意力网络的注意力权重计算初始特征项的支持度,基于支持度筛选用于预测患者住院的预测特征项;基于预测特征项对训练好的第一图注意力网络进行调整得到第二图注意力网络;基于第二图注意力网络和待预测患者的预测特征项对应的健康相关数据得到待预测患者的住院事件预测结果。实现了快速精确的患者住院事件预测。
Description
技术领域
本发明涉及医疗健康技术领域,尤其涉及一种患者住院事件预测方法。
背景技术
哮喘是全球范围内一种常见的慢性呼吸道疾病,属于呼吸道的反复性疾病,患者经常需要入院治疗。预测哮喘导致的住院需求会对个人和公共健康产生重大影响,同时这对医疗资源的配置和护理水平提供指导至关重要。在此之前,预测模型主要依靠临床医生的经验判断以及常规的统计方法,如回归分析等。然而,这些方法具有局限性,往往无法揭示复杂的健康数据与哮喘住院之间的关系。例如,回归模型要求预定义特征与结果之间的关系,并且往往在面对复杂的非线性关系和高维度的数据时效果有限。此外,这些模型通常未能考虑环境因素,如气象和空气质量数据,这些因素已被证明与哮喘发作的可能性有关。
近年来,机器学习和深度学习技术在许多领域都取得了突破性的进展,包括医疗健康领域。然而,大部分初步的机器学习模型包括决策树、逻辑回归(LR,LogisticRegression)和随机森林(RF,Random Forest)等,其预测性能或辨识力仍有待提高。在采用深度学习等方法进行患者住院事件预测时,与患者相关的健康、环境等数据量非常大,现有方法使用大量的特征数据,训练效率低,不能精确、高效进行患者住院事件预测。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种患者住院事件预测方法,用以解决现有训练效率低,不能精确进行患者住院事件预测的问题。
一方面,本发明实施例提供了一种患者住院事件预测方法,包括以下步骤:
获取患者的健康相关数据,所述健康相关数据包括临床数据和环境数据;基于所述健康相关数据确定初始特征项;
构建第一图注意力网络,基于初始特征项对应的患者的健康相关数据训练所述第一图注意力网络得到训练好的第一图注意力网络;
基于训练好的所述第一图注意力网络的注意力权重计算所述初始特征项的支持度,基于所述支持度筛选用于预测患者住院的预测特征项;
基于所述预测特征项对训练好的所述第一图注意力网络进行调整得到第二图注意力网络;
基于第二图注意力网络和待预测患者的预测特征项对应的健康相关数据得到待预测患者的住院事件预测结果。
基于上述技术方案的进一步改进,基于所述预测特征项对训练好的所述第一图注意力网络进行调整得到第二图注意力网络,包括:
将第一图注意力网络中注意力权重小于第四阈值的边删除;
将第一图注意力网络中不是预测特征项的节点以及该节点连接的边删除,得到第二图注意力网络。
基于上述技术方案的进一步改进,基于所述健康相关数据确定初始特征项,包括:
对数值型的健康相关数据进行预处理,所述预处理包括离群点剔除、缺失值填补和归一化;
基于预处理后的健康相关数据根据相似度度量确定初始特征项。
基于上述技术方案的进一步改进,通过以下方式进行离群点剔除:
计算每个患者的高杠杆率hi:
;
其中,xi表示第i个患者的健康相关数据构成的向量,表示所有患者的健康相关
数据的均值构成的向量,N表示患者数量;
根据以下公式计算第i个患者的离群度Di:
;
其中,yi表示第i个患者的标签,表示以患者的健康相关数据为自变量,以患者的标签为因变量进行线性回归拟合后,第i患者的拟合结果,p表示患者的健康相关数据的项数,S表示线性回归拟合结果的标准差;
剔除离群度大于第一阈值的患者的健康相关数据。
基于上述技术方案的进一步改进,基于训练好的所述第一图注意力网络的注意力权重计算所述初始特征项的支持度,基于所述支持度筛选用于预测患者住院的预测特征项,包括:
基于第一图注意力网络中每条边的注意力权重计算每个节点的重要度;
采用公式计算每项初始特征项的支持度/>,其中,I(fi)表示第i个初始特征项的数据支持度,J(fi)表示第i个初始特征项的文献支持度,Ei表示第i个节点的重要度;
若初始特征项的支持度大于第三阈值,则将其作为预测特征项。
基于上述技术方案的进一步改进,
采用以下公式计算第i个初始特征项的数据支持度:
;
其中,,N(fi)表示在获取的患者的健康相关数据中,第i个初始特征项对应数据不为空的患者的数量,N表示患者的总数量。
基于上述技术方案的进一步改进,
采用以下公式计算第i个初始特征项的文献支持度:
;
L(fi)表示公开第i个初始特征项和哮喘相关的文献的最高影响因子。
基于上述技术方案的进一步改进,基于初始特征项对应的患者的临床数据和环境数据训练所述图注意力网络得到训练好的第一图注意力网络,包括:
对于每个训练批次,基于每项初始特征项对应的患者的健康相关数据构建第一图注意力网络中每项初始特征项对应节点的特征向量;
基于第一图注意力网络的网络参数更新每个节点的特征向量得到更新后的特征向量;
基于更新后的特征向量通过分类网络进行住院事件预测;基于预测的损失更新图注意力网络的网络参数;
当达到预设的训练条件则停止训练,得到训练好的第一图注意力网络。
基于上述技术方案的进一步改进,对于第i个节点,采用以下方式更新节点的特征向量得到更新后的特征向量:
基于第一图注意力网络的网络参数计算每个邻居节点对第i个节点的注意力权重eij;
对注意力权重进行归一化;
基于归一化后的注意力权重计算第i个节点更新后的特征向量;
其中,N(i)表示第i个节点的相邻节点,hj分别是第j个节点的特征向量。
基于上述技术方案的进一步改进,采用以下公式计算预测的损失:
;
其中,W3是分类网络的网络参数矩阵,H’表示分类网络的输入特征向量,表示分类网络得到的预测结果,Y表示患者住院事件标签,|Ws|表示第s个网络参数矩阵的范数。
与现有技术相比,本实施例提供的患者住院事件预测方法通过构建第一图注意力网络,利用图注意力机制进行预测,根据第一图注意力的训练结果以及特征的支持度从而筛选出可用于精准预测患者住院事件的预测特征项,根据预测特征项对第一图注意力网络进行调整并训练调整后的第二图注意力网络,从而得到能更加精确预测患者住院事件的网络模型,当需要对患者进行住院事件预测时将预测特征项对应的数据输入第二图注意力网络即可得到预测结果,提高了预测性能,提高了医疗资源的预测效率,同时也使临床医生能够对预测结果有更深入的理解,以帮助其做出更好的临床决策。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例患者住院事件预测方法的流程图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种患者住院事件预测方法,如图1所示,包括以下步骤:
S1、获取患者的健康相关数据,所述健康相关数据包括临床数据和环境数据;基于所述健康相关数据确定初始特征项;
S2、构建第一图注意力网络,基于初始特征项对应的患者的健康相关数据训练所述第一图注意力网络得到训练好的第一图注意力网络;
S3、基于训练好的所述第一图注意力网络的注意力权重以及所述初始特征项的支持度筛选用于预测患者住院的预测特征项;
S4、基于所述预测特征项,对训练好的所述第一图注意力网络进行调整得到第二图注意力网络;
S5、基于第二图注意力网络和待预测患者的预测特征项对应的健康相关数据得到待预测患者的住院事件预测结果。
与现有技术相比,本实施例提供的患者住院事件预测方法通过构建第一图注意力网络,利用图注意力机制进行预测,根据第一图注意力的训练结果以及特征的支持度从而筛选出可用于精准预测患者住院事件的预测特征项,根据预测特征项对第一图注意力网络进行调整并训练调整后的第二图注意力网络,从而得到能更加精确预测患者住院事件的网络模型,当需要对患者进行住院事件预测时将预测特征项对应的数据输入第二图注意力网络即可得到预测结果,提高了预测性能,提高了医疗资源的预测效率,同时也使临床医生能够对预测结果有更深入的理解,以帮助其做出更好的临床决策。
实施时,患者的临床数据包括患者的人口统计数据(例如性别、年龄等)、生命体征数据(例如血压、血样饱和度等)、实验室检查数据(例如白细胞计数、红细胞计数等)、并发症数据(例如是否伴有高血压等并发症)、以及分诊时初始疾病的严重程度。初始病情严重程度可由中国急诊分诊量表(CETS)评估得到。CETS对患者的紧迫性进行评分,初始病情严重程度分为四档:1濒死;2危重;3急症;4非急。
环境数据为患者居住地的环境数据,包括患者急诊就诊当天,急诊就诊前1天直到急诊就诊前30天的每日NO2浓度、SO2浓度、CO浓度、O3浓度、PM2.5浓度、PM10浓度、温度、风速、相对湿度、气压等数据。
患者的住院事件分为无需住院、入住普通病房、入住重症监护病房三种类型,编码后作为患者的标签数据。
患者的健康相关数据包括数值型数据和类别型数据。数值型的健康相关数据例如年龄、血压、血氧饱和度、就诊前24小时的气压平均值等数据,类别型数据例如性别、是否有高血压病史等。对于类别型数据根据每项数据的类型数量转化为对应的数值化元素,用于后续进行计算,例如对于性别项,男性对应的数值为0,女性对应的数值为1。
具体的,步骤S1中基于所述健康相关数据确定初始特征项,包括:
S11、对数值型的健康相关数据进行预处理,所述预处理包括离群点剔除、缺失值填补和归一化;
对于数值型的健康相关数据,为了使得后续训练结果更精确,首先通过离群点检测剔除离群点数据。实施时,通过以下方式计算每个患者的离群度。
计算每个患者的高杠杆率hi:
;
其中,xi表示第i个患者的健康相关数据构成的向量,表示所有患者的健康相关数据的均值构成的向量,N表示患者数量。
根据以下公式计算第i个患者的离群度Di:
;
其中,yi表示第i个患者的标签,表示以患者的健康相关数据为自变量,以患者的标签为因变量进行线性回归拟合后,第i患者的拟合结果,p表示患者的健康相关数据的项数,S表示线性回归拟合结果的标准差。
计算每个患者的离群度后,剔除离群度结果大于第一阈值的患者数据,从而剔除离群数据。
对于余下的患者健康相关数据中存在的缺失值,可通过填充为该项数据的中值来补充。
为了避免不同数据项量级的差异对模型训练结果的不良影响,通过归一化操作将数值类的数据项的数值标椎化至0~1的范围内。
数据预处理后,为了便于后续计算,将每项健康数据项的长度对齐,例如都调整为k维长度的向量,将长度小于k维的数据项补0来对齐。
S12、基于预处理后的健康相关数据根据相似度度量确定初始特征项。
数据预处理后,每项健康相关数据项均是候选的特征项,由于特征项较多,需要对特征项进行初步筛选以减少冗余项,得到初始特征项。
首先,根据医生的临床经验从候选的特征项中选出最可能影响患者住院的几项特征项作为初始特征项,例如,根据临床经验,年龄、并发症、以及分诊时初始疾病的严重程度对患者住院影响较大,将其加入初始特征项集合中。
对于其他候选的每个特征项,计算其与当前初始特征项集合中每个特征项的相似度,若与当前初始特征项集合中某个特征项的相似度超过第二阈值,则该候选的特征项为冗余特征项,则其不作为初始特征项,若当前候选的特征项与当前初始特征项集合中每个特征项的相似度都小于第二阈值,在将该候选的特征项加入初始特征项集合中。所有候选的特征项都遍历后,初始特征项集合中的特征项即为确定的初始特征项。实施时,第二阈值根据相似度评估的精度要求设置。
例如,对于患者的血压数据项,剔除离群点后的所有患者的血压数据作为血压特征项的向量,对于患者的血氧饱和度数据项,剔除离群点后的所有患者的血氧饱和度作为血氧饱和度特征项的向量,可通过两个向量的内积计算其相似度,内积值越大,相似度越高。计算公式如下:
;
其中,fi表示第i项特征项的向量,fj表示第j项特征项的向量。sim(fi,fj)表示两个特征项的相似度。
得到初始特征项后,以每项初始特征项作为图注意力网络的节点,以初始特征项间的影响关系以及初始特征项间的时序关系为边构建图注意力网络。
实施时,每个初始特征项作为图注意力网络中的一个节点,其可能是患者的临床数据,也可能是环境数据。
节点的边代表节点间的影响关系。临床数据项间的影响关系可根据疾病的转归以及医生的临床先验知识建立,例如,年龄对高血压有影响,可以在年龄和高血压之间建立边连接。环境变量之间则可以根据时间顺序连接。此外,因为环境变量可能会影响患者的生命体征、生理指标等,因此,可根据先验知识确定节点间的连接关系。为了避免先验知识不足对模型造成影响,实施时,也可以对所有节点间都建立连接边,通过训练模型得到每条边的权重系数(注意力权重),权重系数越大影响关系越大,权重系数越小影响关系越小,可以删除权重系数较小的边,从而根据训练后的权重系数的大小来确定节点间的连接关系。搭建好第一图注意力网络后通过基于患者数据对构建的图注意力网络结构进行训练,更新图注意力网络的参数。具体的,步骤S2中基于初始特征项对应的患者的健康相关数据训练所述第一图注意力网络得到训练好的第一图注意力网络,包括:
S21、对于每个训练批次,基于每项初始特征项对应的患者的健康相关数据构建第一图注意力网络中每项初始特征项对应节点的特征向量;
S22、基于第一图注意力网络的网络参数更新每个节点的特征向量得到更新后的特征向量;
S23、基于更新后的特征向量通过分类网络进行住院事件预测;基于预测的损失更新图注意力网络的网络参数;
S24、当达到预设的训练条件则停止训练,得到训练好的第一图注意力网络。
实施时,预处理后的患者数据分批次的输入构建的图注意力网络中进行网络训练。对于每个训练批次,第一图注意力网络中每个节点的向量为该批次患者的该节点对应的初始特征项的数据构成的向量。
初始时,第一图注意力网络的网络参数为随机设置的。由于临床数据和环境数据是两种不同模态的数据。对不同类型的边,分别使用注意力机制计算其注意力权重,再根据注意力权重更新节点特征。临床变量和环境变量之间的边视为跨模态边,需要用到跨模态注意力机制。同一模态内的边则用单模态注意力机制。
具体的,基于图注意力网络的网络参数更新每个节点的特征向量得到更新后的特征向量,包括:
对于第i个节点,采用以下方式更新节点的特征向量得到更新后的特征向量:
S221、基于第一图注意力网络的网络参数计算每个邻居节点对第i个节点的注意力权重eij;
S222、对注意力权重进行归一化;
S223、基于归一化后的注意力权重计算第i个节点更新后的特征向量;
其中,N(i)表示第i个节点的相邻节点,hj分别是第j个节点的特征向量。
若第i个节点到第j个节点存在边,且第i个节点到第j个节点为同一个模态内部的节点,则采用单模态注意力机制计算注意力权重。
假设第一图注意力网络中的单模态的网络参数矩阵为W1通过注意力机制,我们可以计算任意一对边(i,j)的注意力权重,表示为eij。注意力权重的含义是第j个节点到第i个节点的特征重要性,eij计算表达式为:
;
其中LeakyReLU(·)为激活函数,||表示连接操作,hi和hj分别是第i个节点和第j个节点的特征向量。
若第i个节点和第j个节点存在边,且第i个节点和第j个节点为不同模态的节点,则采用多模态注意力机制计算注意力权重。
假设跨模态的网络参数矩阵为W2,我们可以计算跨模态边上一对边(i,j)的注意力权重:
;
其中,hi和hj分别是第i个节点和第j个节点的特征向量。
计算第i个节点的每个相邻节点对应的注意力权重后,对注意力权重进行归一化。
实施时,然后通过softmax(·)函数进行归一化得到归一化后的注意力权重αij,αij计算表达式为:
;
其中,N(i)是第i个节点的相邻节点。
得到归一化后的注意力权重后,基于归一化后的注意力权重计算第i个节点更新后的特征向量。
第i个节点更新后的特征向量是其所有相邻节点特征的注意力权重加权和,/>计算表达式为:
;
其中,ReLU(·)为激活函数。
得到每个节点对应的更新后的特征向量后,基于更新后的特征向量进行住院事件预测。
实施时,第一图注意力网络可以包括多层图注意力层,每层的网络结构相同,第一个图注意力网络中每个节点的初始特征向量为该批次患者的该节点对应的初始特征项的数据构成的向量,上一层得到的每个节点的更新后的特征向量作为下一层的图注意力网络的节点的初始特征向量,每一层图注意层按照步骤S231-S233更新节点的特征向量,最后一层图注意力层得到的特征向量为最终的更新后的特征向量,进行住院事件预测。
实施时,将每个节点对应的更新后的特征向量拼接在一起,作为输入输入到分类网络中,进行患者住院事件预测,分类网络可采用MLP(多层感知网络)。
然后,通过预测的损失反向传播更新第一图注意力网络和分类网络的网络参数。
具体的,采用以下公式计算预测的损失:
;
其中,W3是分类网络的网络参数矩阵,H’表示分类网络的输入特征向量,表示分类网络得到的预测结果,Y表示患者住院事件标签,|Ws|表示第s个网络参数矩阵的范数,即图注意力网络中的两个网络参数矩阵W1、 W2和分类网络中的网络参数矩阵W3,λ为超参数,用于控制正则化的大小。
通过对网络进行多次迭代训练,当达到预设的训练条件则停止训练,得到训练好的第一图注意力网络。预设的训练条件可以是达到预设的迭代次数,或者达到预设的训练精度。
得到训练好的第一图注意力网络后,基于训练好的所述第一图注意力网络的注意力权重计算所述初始特征项的支持度,基于所述支持度筛选用于预测患者住院的预测特征项。具体的,步骤S3包括:
S31、基于第一图注意力网络中每条边的注意力权重计算每个节点的重要度;
S32、采用公式计算每项初始特征项的支持度/>,其中,I(fi)表示第i个初始特征项的数据支持度,J(fi)表示第i个初始特征项的文献支持度,Ei表示第i个节点的重要度;
S33、若初始特征项的支持度大于第三阈值,则将其作为预测特征项。
预测特征不仅需要有训练的权重的支持,还需要有相关数据量以及理论文献的支持,因此,每项初始特征项的支持度包括每个节点的注意力权重、数据量上的支持度和文献影响上的支持度。
实施时,采用公式,计算训练好的第一图注意力网络中每个节点的重要度,其中,eij表示图注意力网络的最后一层图注意力层中第j个节点到第i个节点的边的注意力权重,N(i)表示第i个节点的相邻节点。从而从模型训练得到的权重角度评估特征对哮喘住院的影响。
每项初始特征项对应的数据量的支持度和文献影响上的支持度只有达到一定门限,才会被纳入可选的范围,因此,实施时采用以下公式计算第i个初始特征项的数据支持度:
;
其中,,N(fi)表示在最初获取的患者的健康相关数据中,第i个初始特征项对应数据不为空的患者的数量,N表示患者的总数量。
采用以下公式计算第i个初始特征项的文献支持度:
;其中,L(fi)表示公开第i个初始特征项和哮喘相关的文献的最高影响因子。
例如,对于PM10相关的特征项,收集所有研究PM10和哮喘相关因素的文献,取其中最高的文献影响因子,作为PM10相关特征项对应的最高影响因子L(fi),从而基于最高影响因子计算PM10相关特征项量对应的文献支持度。
通过考虑网络训练得到的注意力特征、特征项对应的数据支持度和文献支持度,从而能够更加客观全面的评估特征对应哮喘患者住院的影响,使得特征筛选更加准确有效,提高预测的精度以及减小计算规模。
通过计算每个初始特征项的支持度,从其中筛选出支持度高的初始特征项(支持度大于第三阈值),则将其作为预测特征项。实施时,第三阈值可根据训练速度和精度要求设置。
得到预测特征项后,基于所述预测特征项对训练好的所述第一图注意力网络进行调整得到第二图注意力网络,包括:
将第一图注意力网络中注意力权重小于第四阈值的边删除;
将第一图注意力网络中不是预测特征项的节点以及该节点连接的边删除,得到第二图注意力网络。
实施时,将第一图注意力网络中不是预测特征项的节点以及该节点连接的边删除,保留预测特征项,并且删除预测特征项间注意力权重值小于第四阈值的边,从而对第一图注意力网络进行调整得到第二图注意力网络。实施时,第四阈值可以根据模型的训练精度和速度的要求设置。通过调整,将对患者住院预测作用小的特征去除,并且删除影响关系小的边,从而更加精准的进行患者住院事件预测,并且计算量小,计算效率高。
基于预处理后的患者数据,按照训练第一图注意力网络的过程对第二图注意力网络进行训练,得到训练好的第二图注意力网络。由于第二图注意力网络是在训练好的第一图注意力网络基础上得到的,因此,第二图注意力网络的训练会很快收敛。
对于待预测的患者,通过获取预测特征项对应的健康相关数据,将待预测患者的预测特征项的对应的健康相关数据输入训练好的第二图注意力网络得到对应的特征向量,将特征向量输入分类网络即可得到待预测患者的住院事件预测结果。
在图注意力网络中,每一条边的权重实际上就是通过注意力机制计算得到的注意力系数。这些系数表示的是在节点特征更新过程中,一个节点对其相邻节点特征的重视程度,或者说是相邻节点对当前节点特征更新的贡献度。通过分析这些注意力系数,我们可以理解到每个临床变量或环境变量在整个网络中的重要性。比如说,某个环境变量的特征向量在各个节点更新过程中都起着较大的作用,对应的注意力系数都相对较高,那么我们就可以认为这个环境事件对哮喘住院事件的影响可能较大。
根据以上分析结果能够提取出对哮喘患者住院事件影响最大的因素,可以更精准地帮助医生对患者的住院情况进行分类,大大提高了效率,节约医疗资源。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (3)
1.一种患者住院事件预测方法,其特征在于,包括以下步骤:
获取患者的健康相关数据,所述健康相关数据包括临床数据和环境数据;基于所述健康相关数据确定初始特征项;
构建第一图注意力网络,基于初始特征项对应的患者的健康相关数据训练所述第一图注意力网络得到训练好的第一图注意力网络;
基于训练好的所述第一图注意力网络的注意力权重计算所述初始特征项的支持度,基于所述支持度筛选用于预测患者住院的预测特征项;
基于所述预测特征项对训练好的所述第一图注意力网络进行调整得到第二图注意力网络;
基于第二图注意力网络和待预测患者的预测特征项对应的健康相关数据得到待预测患者的住院事件预测结果;
基于所述预测特征项对训练好的所述第一图注意力网络进行调整得到第二图注意力网络,包括:
将第一图注意力网络中注意力权重小于第四阈值的边删除;
将第一图注意力网络中不是预测特征项的节点以及该节点连接的边删除,得到第二图注意力网络;
基于所述健康相关数据确定初始特征项,包括:
对数值型的健康相关数据进行预处理,所述预处理包括离群点剔除、缺失值填补和归一化;
基于预处理后的健康相关数据根据相似度度量确定初始特征项;
通过以下方式进行离群点剔除:
计算每个患者的高杠杆率hi:
;
其中,xi表示第i个患者的健康相关数据构成的向量,表示所有患者的健康相关数据的均值构成的向量,N表示患者数量;
根据以下公式计算第i个患者的离群度Di:
;
其中,yi表示第i个患者的标签,表示以患者的健康相关数据为自变量,以患者的标签为因变量进行线性回归拟合后,第i患者的拟合结果,p表示患者的健康相关数据的项数,S表示线性回归拟合结果的标准差;
剔除离群度大于第一阈值的患者的健康相关数据;
基于训练好的所述第一图注意力网络的注意力权重计算所述初始特征项的支持度,基于所述支持度筛选用于预测患者住院的预测特征项,包括:
基于第一图注意力网络中每条边的注意力权重计算每个节点的重要度;
采用公式计算每项初始特征项的支持度/>,其中,I(fi)表示第i个初始特征项的数据支持度,J(fi)表示第i个初始特征项的文献支持度,Ei表示第i个节点的重要度;
若初始特征项的支持度大于第三阈值,则将其作为预测特征项;
采用以下公式计算第i个初始特征项的数据支持度:
;
其中,,N(fi)表示在获取的患者的健康相关数据中,第i个初始特征项对应数据不为空的患者的数量,N表示患者的总数量;
采用以下公式计算第i个初始特征项的文献支持度:
;
L(fi)表示公开第i个初始特征项和哮喘相关的文献的最高影响因子;
基于初始特征项对应的患者的临床数据和环境数据训练所述图注意力网络得到训练好的第一图注意力网络,包括:
对于每个训练批次,基于每项初始特征项对应的患者的健康相关数据构建第一图注意力网络中每项初始特征项对应节点的特征向量;
基于第一图注意力网络的网络参数更新每个节点的特征向量得到更新后的特征向量;
基于更新后的特征向量通过分类网络进行住院事件预测;基于预测的损失更新图注意力网络的网络参数;
当达到预设的训练条件则停止训练,得到训练好的第一图注意力网络。
2.根据权利要求1所述的患者住院事件预测方法,其特征在于,对于第i个节点,采用以下方式更新节点的特征向量得到更新后的特征向量:
基于第一图注意力网络的网络参数计算每个邻居节点对第i个节点的注意力权重eij;
对注意力权重进行归一化;
基于归一化后的注意力权重计算第i个节点更新后的特征向量;
其中,N(i)表示第i个节点的相邻节点,hj分别是第j个节点的特征向量,eik表示第k个节点对第i个节点的注意力权重,softmax(·)表示softmax函数,ReLU(·)表示激活函数。
3.根据权利要求1所述的患者住院事件预测方法,其特征在于,采用以下公式计算预测的损失:
;
其中,W3是分类网络的网络参数矩阵,H’表示分类网络的输入特征向量,表示分类网络得到的预测结果,Y表示患者住院事件标签,|Ws|表示第s个网络参数矩阵的范数,λ表示用于控制正则化大小的超参数,softmax(·)表示softmax函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311314877.3A CN117079821B (zh) | 2023-10-12 | 2023-10-12 | 一种患者住院事件预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311314877.3A CN117079821B (zh) | 2023-10-12 | 2023-10-12 | 一种患者住院事件预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117079821A CN117079821A (zh) | 2023-11-17 |
CN117079821B true CN117079821B (zh) | 2023-12-19 |
Family
ID=88719761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311314877.3A Active CN117079821B (zh) | 2023-10-12 | 2023-10-12 | 一种患者住院事件预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079821B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493933A (zh) * | 2018-08-08 | 2019-03-19 | 浙江大学 | 一种基于注意力机制的不良心血管事件的预测装置 |
CN110334843A (zh) * | 2019-04-22 | 2019-10-15 | 山东大学 | 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置 |
CN110347837A (zh) * | 2019-07-17 | 2019-10-18 | 电子科技大学 | 一种心血管疾病非计划再住院风险预测方法 |
CN110691548A (zh) * | 2017-07-28 | 2020-01-14 | 谷歌有限责任公司 | 用于从电子健康记录中预测和总结医疗事件的系统和方法 |
KR20200063364A (ko) * | 2018-11-23 | 2020-06-05 | 네이버 주식회사 | 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템 |
CN115204509A (zh) * | 2022-07-27 | 2022-10-18 | 四川省医学科学院·四川省人民医院 | 一种呼吸系统住院病人数量预测方法 |
CN116564511A (zh) * | 2023-03-02 | 2023-08-08 | 武汉大学 | 一种慢性病健康状态预测方法、装置及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200402665A1 (en) * | 2019-06-19 | 2020-12-24 | GE Precision Healthcare LLC | Unplanned readmission prediction using an interactive augmented intelligent (iai) system |
-
2023
- 2023-10-12 CN CN202311314877.3A patent/CN117079821B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110691548A (zh) * | 2017-07-28 | 2020-01-14 | 谷歌有限责任公司 | 用于从电子健康记录中预测和总结医疗事件的系统和方法 |
CN109493933A (zh) * | 2018-08-08 | 2019-03-19 | 浙江大学 | 一种基于注意力机制的不良心血管事件的预测装置 |
KR20200063364A (ko) * | 2018-11-23 | 2020-06-05 | 네이버 주식회사 | 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템 |
CN110334843A (zh) * | 2019-04-22 | 2019-10-15 | 山东大学 | 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置 |
CN110347837A (zh) * | 2019-07-17 | 2019-10-18 | 电子科技大学 | 一种心血管疾病非计划再住院风险预测方法 |
CN115204509A (zh) * | 2022-07-27 | 2022-10-18 | 四川省医学科学院·四川省人民医院 | 一种呼吸系统住院病人数量预测方法 |
CN116564511A (zh) * | 2023-03-02 | 2023-08-08 | 武汉大学 | 一种慢性病健康状态预测方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
Hospitalization Behavior Prediction Based on Attention and Time Adjustment Factors in Bidirectional LSTM;Cheng, L 等;《Database Systems for Advanced Applications》;第397-401页 * |
基于机器学习的慢性病预测关键技术研究;胡智栩;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》;第12-14、48-49页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117079821A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7161274B2 (ja) | 先を見越した健康監視及び管理のための個別化されたデバイス推奨 | |
CN111261282A (zh) | 一种基于机器学习的脓毒症早期预测方法 | |
CN104572583B (zh) | 用于数据致密化的方法和系统 | |
CN113421652A (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
CN112201330A (zh) | 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法 | |
CN116682557A (zh) | 一种基于小样本深度学习的慢性病并发症早期风险预警方法 | |
Wang | Construct an optimal triage prediction model: A case study of the emergency department of a teaching hospital in Taiwan | |
Priya et al. | A novel intelligent approach for predicting atherosclerotic individuals from big data for healthcare | |
Alkaragole et al. | Comparison of data mining techniques for predicting diabetes or prediabetes by risk factors | |
Gupta et al. | Utilizing time series data embedded in electronic health records to develop continuous mortality risk prediction models using hidden Markov models: a sepsis case study | |
CN113284627B (zh) | 基于患者表征学习的用药推荐方法 | |
CN116959715B (zh) | 一种基于时序演进过程解释的疾病预后预测系统 | |
Li et al. | Study of E-business applications based on big data analysis in modern hospital health management | |
Adigun et al. | Classification of Diabetes Types using Machine Learning | |
CN117079821B (zh) | 一种患者住院事件预测方法 | |
Siddiqa et al. | Robust Length of Stay Prediction Model for Indoor Patients. | |
Das et al. | Managing uncertainty in imputing missing symptom value for healthcare of rural India | |
Rajan et al. | Artificial Intelligence in Healthcare: Algorithms and Decision Support Systems | |
CN117235487B (zh) | 一种用于预测哮喘患者住院事件的特征提取方法和系统 | |
Zhang et al. | Real-time Prediction for Mechanical Ventilation in COVID-19 Patients using A Multi-task Gaussian Process Multi-objective Self-attention Network | |
Shi et al. | Analysis of electronic health records based on long short‐term memory | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
Bhardwaj et al. | Improved healthcare monitoring of coronary heart disease patients in time-series fashion using deep learning model | |
Ramesh et al. | A frame work for classification of multi class medical data based on deep learning and Naive Bayes classification model | |
Rajmohan et al. | G-Sep: A Deep Learning Algorithm for Detection of Long-Term Sepsis Using Bidirectional Gated Recurrent Unit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |