CN116072298A - 一种基于层级标记分布学习的疾病预测系统 - Google Patents
一种基于层级标记分布学习的疾病预测系统 Download PDFInfo
- Publication number
- CN116072298A CN116072298A CN202310358985.4A CN202310358985A CN116072298A CN 116072298 A CN116072298 A CN 116072298A CN 202310358985 A CN202310358985 A CN 202310358985A CN 116072298 A CN116072298 A CN 116072298A
- Authority
- CN
- China
- Prior art keywords
- disease
- patient
- hierarchical
- mark
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 150
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 150
- 239000003550 marker Substances 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000005065 mining Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000003745 diagnosis Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000003814 drug Substances 0.000 claims description 8
- 229940079593 drug Drugs 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 1
- 238000012423 maintenance Methods 0.000 claims 1
- 238000007405 data analysis Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 208000030852 Parasitic disease Diseases 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 206010019280 Heart failures Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 208000011140 intestinal infectious disease Diseases 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 206010022678 Intestinal infections Diseases 0.000 description 1
- 101100264172 Oryza sativa subsp. japonica XIAO gene Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000004798 organs belonging to the digestive system Anatomy 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于层级标记分布学习的疾病预测系统,包括数据采集及分类模块,用于采集多位患者的电子病历数据;特征嵌入模块,用于将患者基本信息、病史等信息以特征向量的形式进行模型训练;标记增强模块,用于挖掘患者特征与疾病、患者特征之间、疾病之间的相关性,从而以标记分布来更为全面的反应患者的患病风险程度;层级标记分布学习模块,用于根据采集到的数据进行模型训练,使得模型可以根据患者的疾病信息对其未来的患病风险做出预测;预测结果展示模块,用于展示患者未来可能患病风险。本发明利用疾病之间的层级关系,考虑不同类别间的关联性、相同类别下疾病的关系、不同类别下疾病的关系等,提升模型的预测准确度以及鲁棒性。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于层级标记分布学习的疾病预测系统。
背景技术
基于机器学习的疾病预测方法有助于提高疾病诊断的准确度、通过预警实现疾病预防、简化临床决策和降低医疗成本等。现有的疾病预测算法如Doctor AI模型(CHOI E,BAHADORI M T, SCHUETZ A, et al. Doctor ai: Predicting clinical events viarecurrent neural networks; proceedings of the Machine learning for healthcareconference, F, 2016 [C]. PMLR.)根据患者病史采用循环神经网络(recurrent neuralnetwork, RNN)预测患者下一次就诊时间及其可能的患病风险,RETAIN模型(CHOI E,BAHADORI M T, SUN J, et al. Retain: An interpretable predictive model forhealthcare using reverse time attention mechanism [J]. Advances in neuralinformation processing systems, 2016, 29.)则在RNN模型的基础上,增加了注意力机制(attention mechanism)来提升模型的可解释性,MiME模型(CHOI E, XIAO C, STEWARTW, et al. Mime: Multilevel medical embedding of electronic health records forpredictive healthcare [J]. Advances in neural information processing systems,2018, 31.)则通过辅助任务预测治疗手段(药物与手术)等来提升模型的准确性。这些方法受限于样本数量,如在样本数量较多的心力衰竭(heart failure)问题上,能做出准确的预测,却不能解决疾病范围增加以后,样本类别不均衡问题,即算法无法对小样本疾病,如一些新发疾病以及罕见疾病做出预测。
层级分类算法用预先定义好的层级结构来构建标记集合,可有效解决多标记学习中,由于标记数量过多导致的数据稀疏问题,如类别不均衡与小样本等问题,现已广泛用于文本分类、图像注释、蛋白质功能预测等。基于神经网络的HMCN算法(WEHRMANN J, CERRIR, BARROS R. Hierarchical multi-label classification networks; proceedings ofthe International conference on machine learning, F, 2018 [C]. PMLR.)证实了集成法在解决层级分类任务上的优势,但是,该方法却缺少对标记相关性的研究,无法直接应用于疾病预测任务中。而基于标记分布学习的层级分类方法(XU C, GENG X.Hierarchical classification based on label distribution learning; proceedingsof the Proceedings of the AAAI Conference on Artificial Intelligence, F, 2019[C].),采用标记分布来表示标记之间的关系,构建局部模型并引入虚拟标记对每个节点进行建模,尽管该方法证实了标记相关性在层级分类任务上的有效性,但却局限于单标记学习问题,并且缺少了全局分析,容易出现误差累积等问题。
基于多标记的层级分类方法无法准确的回答标记对示例的描述程度的问题,即患者疾病风险的危急程度,忽略了标记之间的相关性,即疾病标记之间的隶属关系、同一类别下疾病之间的相关性或互斥性、不同类别疾病间的相关性或互斥性。现有的基于标记分布学习的层级分类方法虽然用标记分布解决了标记对示例的描述程度问题,并在局部模型中利用标记相关性提升模型性能,但该方法计算复杂度高、缺少对全局的分析、容易产生误差积累的问题,且仅适用于单标记问题,无法解决疾病预测中的多标记问题。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于层级标记分布学习的疾病预测系统,采用标记分布来对患者的患病风险程度进行更为准确的描述,设计层级分类算法,利用疾病间的关联关系来解决真实世界数据类别不均衡的问题,实现覆盖范围广且预测准确率高的疾病预测系统。
本发明的目的是通过以下技术方案来实现的:一种基于层级标记分布学习的疾病预测系统,该系统包括数据采集及分类模块、特征嵌入模块、标记增强模块、层级标记分布学习模块和预测结果展示模块;
所述数据采集及分类模块用于采集患者数据集,包含患者特征数据、多次就诊时的历史就诊数据,历史就诊数据中具有疾病代码,根据疾病分类知识对疾病代码进行多层次分类,构建疾病标记集合;
所述特征嵌入模块用于根据疾病标记集合划分的结果,将疾病代码映射到疾病标记集合,将数据采集及分类模块得到的患者特征数据以及历史就诊数据进行编码并以特征向量表示,将最后一次就诊时的疾病代码集合采用独热编码作为疾病标记;
所述标记增强模块用于利用标记增强算法挖掘患者特征与疾病标记之间的拓扑关系,获得患者的疾病标记分布;
所述层级标记分布学习模块用于基于标记增强模块获得的患者的疾病标记分布,构建新的训练集,用以训练层级标记分布学习模型,所述层级标记分布学习模型具有若干层,为全局网络,每一层对应一级分类,均包含若干隐含层,为局部网络,输出局部预测标记分布;全局网络在最后一层的全局特征后,输出全局预测标记分布;根据全局预测标记分布与所有层的局部预测标记分布,获得最终的标记分布;
所述预测结果展示模块用于输入患者特征及历史就诊数据,根据特征嵌入模块获得患者特征向量,输入训练好后的层级标记分布学习模型,获得最终预测的患病风险标记分布,即所有疾病的发病概率,并以图表形式进行展示。
进一步地,数据采集及分类模块采集多位患者的电子病历数据,包括患者年龄和性别的基本信息,以及包括疾病代码、用药代码及手术代码的历史就诊数据。
进一步地,根据疾病标记集合划分的结果,将疾病代码的父节点以及祖先节点也添加到疾病代码集合中。
进一步地,层级标记分布学习模块中,局部网络中的隐含层为两个,第一个隐含层输入原始特征及上一层输入,输出全局特征,其中,对于开始的第一个隐含层,仅有原始特征;第二个隐含层将第一个隐含层的全局特征作为输入,输出局部特征,最后输出局部预测标记分布。
进一步地,所述标记增强算法根据患者特征与逻辑标记生成标记分布,具体过程为:基于深度神经网络构建参数模型将患者的特征向量映射到高维空间,构建特征到标记分布的映射,根据患者特征获得标记分布,并度量标记分布到逻辑标记的距离,然后采用k近邻方法对每个患者特征找出与其特征最相似的k位患者,由相似患者集合重构患者特征。
进一步地,由相似患者集合重构患者特征具体为:找出与患者特征最相似的k位患者后,构建图模型来挖掘患者在特征空间的拓扑关系,图模型顶点为患者在特征空间的点,边表示两个患者为k个近邻之一,用邻接矩阵表示其关系,矩阵中元素为边的权值,任意患者特征能够根据权重由相似患者集合重构出来。
进一步地,依据平滑损失函数,使得同一患者在疾病标记空间的拓扑关系与在特征空间的保持一致,即特征相似的患者,其所患疾病也相近。
进一步地,标记增强算法的总损失函数为最小二乘损失、平滑损失与层级损失,通过反馈学习、迭代更新使得总损失函数最小化获得标记增强的参数模型。
进一步地,标记增强中层级损失的损失函数如下:
其中,矩阵表示节点间的隶属关系,表示根据第i个患者特征获得的标记分布;,为可训练的权值矩阵,为可训练的偏置,,为非线性函数,将患者特征映射到高维特征空间,为转置符号。
进一步地,层级标记分布学习模型中,局部网络的损失函数包括KL散度和违反隶属关系惩罚项,其中,层级标记分布学习的违反隶属关系惩罚项如下:
其中,为t层分类标记个数;通过该惩罚项,约束局部预测符合层级分类要求,即在(t-1)层中,患者没有预测到患某类疾病的风险,在t层,该患者也不会患该分类疾病下的子类疾病。
本发明的有益效果:本发明采用标记增强技术,从医疗大数据中挖掘疾病之间的关联关系,利用《国际疾病与相关健康问题统计分类(第十版)》(ICD-10)的层级分类知识,将层级分类应用于疾病预测中,根据训练集中患者的历史患病、用药以及手术数据,恢复出其患病程度的标记分布。而后构建层级标记分布学习网络,其中局部网络实现从粗粒度到细粒度的疾病预测,全局模块则实现对患者生理状况的全面分析、减少局部预测网络的误差累积。本发明利用疾病之间的层级关系,考虑不同类别间的关联性、相同类别下疾病的关系、不同类别下疾病的关系等,扩大算法可涵盖的疾病范围,提升模型的预测准确度以及鲁棒性。
本发明采用标记增强算法,利用患者特征与疾病标记空间的拓扑关系,挖掘疾病间的相关性,恢复出标记分布,使得数据集包含更多的监督信号,提高疾病预测模型的鲁棒性。提出了基于最小二乘法、平滑假设及层级关系的标记增强方法,不仅考虑了标记分布与逻辑标记之间的关系、患者在特征与标记空间的拓扑关系,更考虑了疾病标记间的层级隶属关系,提升标记增强算法在层级标记上的复原能力。
本发明提出层级标记分布学习模型,构建多层神经网络同步实现全局预测与局部预测,通过结合全局预测结果与局部预测结果,提升模型的鲁棒性与泛化能力。并创新的提出了局部损失函数,以构建局部预测结果之间的联系,使得层级分布学习网络服从于疾病标记的层级关系,提升模型的疾病预测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的基于层级标记分布学习的疾病预测系统结构示意图。
图2为本发明中模型训练和预测过程示意图。
图3为本发明标记增强过程示意图。
图4为本发明层级标记示意图。
图5为本发明层级标记分布学习模型示意图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1和图2所示,本发明提供的一种基于层级标记分布学习的疾病预测系统,对于模型先进行训练,然后基于训练后的模型进行疾病预测。本发明的疾病预测系统包括数据采集及分类模块,用于采集多位患者的电子病历数据,包括患者基本信息如年龄、性别等,以及既往病史、用药及手术等;特征嵌入模块,用于采用Med-BERT方法(RASMY L, XIANGY, XIE Z, et al. Med-BERT: pretrained contextualized embeddings on large-scale structured electronic health records for disease prediction [J]. NPJdigital medicine, 2021, 4(1): 1-13.),将患者基本信息、病史等信息以特征向量的形式构建训练数据;标记增强模块,用于挖掘患者特征与疾病、患者特征之间、疾病之间的相关性,实现标记增强,从而以标记分布来更为全面的反应患者的患病风险程度;层级标记分布学习模块,用于根据采集到的数据进行层级标记分布学习模型训练,得到的层级标记分布学习模可以根据患者的疾病信息以及病史等特征数据,对其未来的患病风险做出预测;预测结果展示模块,用于展示患者未来可能患病风险的预测结果。
所述数据采集及分类模块,采集患者数据集作为训练集,其中为训练集中患者总数,第个患者特征为,包含患者的基本信息,如性别、婚姻状况、所在地区,前次就诊时的年龄、疾病代码、用药代码以及手术代码,以及第次患者症状。为该患者第次,即最后一次就诊时的疾病代码集合。
基于采集的患者数据,根据现有疾病分类知识对疾病代码进行多层次分类,构建疾病标记集合进行划分。用表示第一层分类标记,包含个类别,如根据ICD-10分类,可表示为“寄生虫疾病”、“肿瘤”、“内分泌”、“营养和代谢疾病”等。用表示第二层分类,包含第一层分类下的所有小类,即“寄生虫疾病”下的“肠道传染病”、“结核病”等,“肿瘤”下的“消化器官恶性肿瘤”、“呼吸和胸腔内器官恶性肿瘤”等。最终的疾病标记集合可表示为,其中为总层数,表示第t层的标记个数。为了便于描述,本发明用来简化表示,其中,对应于,以此类推,为总标记个数,。
所述特征嵌入模块,用于根据层级分类结果,将疾病代码映射到疾病标记集合中,并将其父节点以及祖先节点也添加到疾病代码集合中,如疾病代码为“A04”,即“其他细菌性肠道感染”,则会将其父节点“肠道传染病”以及祖先节点“寄生虫疾病”一同添加到疾病代码集合中。该疾病代码集合应用场景有:患者的病史,即以往就诊时的诊断结果;疾病标记,最后一次就诊时的诊断结果。
将数据采集及分类模块得到的患者特征进行编码,然后采用Med-BERT方法,得到对应的特征向量,最终将患者特征以维实数向量表示,即获得患者特征表达。
对患者疾病的疾病标记集合进行编码,首先采用简单的独热(one-hot)编码,用逻辑标记来表示,当患有疾病时,,否则。
所述标记增强模块,用于利用标记增强算法挖掘患者特征与疾病标记之间的拓扑关系,获得标记分布;所述标记增强算法根据患者特征与逻辑标记生成标记分布,基于深度神经网络构建参数模型将患者的特征向量映射到高维空间,构建特征到标记分布的映射,根据患者特征获得标记分布,并度量标记分布到逻辑标记的距离,然后采用k近邻方法对每个患者特征找出与其特征最相似的k位患者,构建图模型来挖掘患者在特征空间的拓扑关系,图模型顶点为患者在特征空间的点,边表示两个患者为k个近邻之一,用邻接矩阵表示其关系,矩阵中元素为边的权值,任意患者特征能够根据权重由相似患者集合重构出来,依据平滑损失函数,使得同一患者在疾病标记空间的拓扑关系与在特征空间的保持一致,即特征相似的患者,其所患疾病也相近,最后根据最小二乘损失、平滑损失与层级损失得到总损失函数,通过反馈学习、迭代更新使得总损失函数最小化获得标记增强的参数模型。具体过程如下:
定义特征空间,即任意患者特征,逻辑标记空间,标记分布空间,如图3中的(a)所示为矩阵空间示意图。本发明设计标记增强算法挖掘示例在特征空间与标记空间的拓扑关系,将疾病标记从初始的逻辑标记空间映射到标记分布空间,即根据患者特征与逻辑标记(如图3中的(b)所示,横坐标为标记,纵坐标表示标记的描述度)生成标记分布(如图3中的(c)所示,横坐标为标记,纵坐标表示标记的描述度),标记分布涵盖所有可能的标记,并用描述度来表示标记在描述示例时所占比重(GENG X. Label distribution learning [J]. IEEE Transactions onKnowledge and Data Engineering, 2016, 28(7): 1734-48.)。标记增强过程具体如下:
a)构建参数模型,根据患者特征获得标记分布:
其中,,为可训练的权值矩阵,为可训练的偏置,,为非线性函数,将映射到高维特征空间。
b)度量标记分布到逻辑标记的距离,采用最小二乘损失函数:
该损失函数挖掘患者特征到疾病标记的拓扑关系,保证生成的标记分布不违反初始的逻辑标记。
c)采用k近邻(k-nearest neighbor)方法,对每个患者特征,找出与其特征最相似的k位患者,k的取值可以根据患者数据总数N以及算法复杂度来调整。然后构建图模型来挖掘患者在特征空间的拓扑关系:,其中为顶点集合,即所有的患者在特征空间的点所构成的集合,为边集合,其中边表示为的k个近邻之一。用邻接矩阵(adjacency matrix)表示示例之间的关系,即,当边存在于边集合,矩阵中元素可以看作是边的权值,当不存在边,。任意患者特征可以根据权重由相似患者集合重构出来,因此,设计重构函数来获取邻接矩阵A:
约束,,则可以通过求解n个最小二乘问题获得矩阵邻接A:
其中,为转置符号,为的格拉姆矩阵(Gram matrix),矩阵内元素。根据平滑假设(ZHU X. Semi-supervised learning with graphs[M]. Carnegie Mellon University, 2005.),特征空间的局部拓扑结构可以映射到标记空间,即特征空间距离相近的点,更有可能具有相似的标记,则构建平滑损失函数:
使得同一患者在疾病标记空间的拓扑关系与在特征空间的保持一致,即特征相似的患者,其所患疾病也相近。
d)进一步约束生成的标记分布满足疾病的层级关系。本发明以树结构来表示疾病标记之间的层级关系,并用矩阵表示节点间的隶属关系,即,矩阵中元素,表示为的父节点或祖先节点。如图4所示,、为的祖先,因此,,但相反,,且、不是的祖先,则,。定义层级损失函数:
通过该损失函数,当且仅当患有某类疾病时,才会可能患有该类下的细分类疾病,即,标记增强服从于层级分类的规定。
e)最后,最小化总损失函数:
来优化参数模型中的权值矩阵与偏置,其中与为权值参数,其取值范围在[0,1],用于平衡总损失函数中,最小二乘损失、平滑损失与层级损失之间的比重。
f)本发明通过深度神经网络来构建该参数模型,首先通过一层隐含层,将患者的特征向量映射到高维空间:
其中,为激活函数,可根据数据特征与任务选择任意非线性函数,如tanh,relu等,为可训练参数矩阵,为可训练偏置,为高维空间中特征维度。
而后,构建特征到标记分布的映射:
其中,为隐含层,为可训练参数矩阵,为可训练偏置,为隐含层神经元个数,可根据特征维度与任务复杂程度来增加隐含层层输。为可训练参数矩阵,为可训练偏置。最后通过反馈学习,迭代更新权值矩阵,使得总损失函数最小化,即可获得标记增强的参数模型,即。迭代优化方法可采用常用的基于梯度下降的方法,如adam,adagrad等。
所述层级标记分布学习模块,用于构建层级标记分布学习模型,根据患者特征预测其未来可能患病风险。
基于标记增强模块获得的患者的疾病标记分布,则可构建新的训练集,,用以训练层级标记分布学习模型(如图5所示)。
通过多层神经网络,构建特征到全部疾病标记的预测,该部分被称为全局预测网络:
第一层隐含层:
其中为任意非线性激活函数,如tanh、relu等,为权值矩阵,为偏置,输出为第一层全局特征抽象,为第一层隐含层的神经元个数,可根据特征维度、任务复杂度及网络深度进行设置。
第二层全局特征在第一层全局特征抽象的基础上,再一次考虑初始特征:
其中表示拼接(concatenation)操作,为权值矩阵,为偏置。通过该操作,使得第二层的全局特征能够在第一层分类特征的基础上,进一步考虑特征细节用于第二层的细分类,同时,类似于残差网络的设计,可以起到防止梯度消失的作用。
以此类推,直到获得第T层的全局特征:
其中为权值矩阵,为偏置,并对全局标记做出预测:
其中为权值矩阵,为偏置,为所有标记的预测结果。
在第t(t=1,2,…,T)层全局特征的基础上,构建局部网络,输出第t层疾病标记分布:
其中,为局部网络的隐含层输出,为权值矩阵,为偏置。该隐含层将第t层全局网络的隐含层的输出作为输入,以获取更精确的第t层分类特征。为第t层的局部网络预测标记分布,为权值矩阵,为偏置。
根据全局预测标记分布与局部预测标记分布,获得最终的标记分布:
其中,为权衡参数,,其取值可以根据任务需求定义,如标记数量少,层级关系影响弱时,取值可以偏小以侧重于全局网络,而当标记数量多,层级关系复杂时,全局网络的预测准确率下降,取值可以偏大以侧重于局部网络。
层级标记分布学习模型损失函数的计算分为两部分:
全局标记分布的度量可以采用标记分布学习中常用的KL散度(Kullback–Leibler divergence):
而对于第t层局部标记分布,增加违反隶属关系惩罚项:
其中,为t层分类标记个数。通过该惩罚项,约束局部预测符合层级分类要求,即在(t-1)层中,该患者没有预测到患某类疾病的风险,在t层,该患者也不会患该类疾病下的子类疾病。则局部网络的损失函数为:
其中,为权衡参数用于设置惩罚项的力度,。
最后通过反馈学习,迭代更新权值矩阵与偏置,使得损失函数最小化,即可获得层级标记分布学习模型。迭代优化方法可采用常用的基于梯度下降的方法,如adam,adagrad等。该模型通过集成法实现层级标记分布学习,利用全局网络进行宏观的全局分析与预测,利用局部模型实现从粗粒度到细粒度的疾病分类预测,并提出损失函数约束层级间的隶属关系,提升预测准确性。通过结合全局预测和局部预测结果,可提升模型的鲁棒性,实现考虑疾病相关性的、适用于多种疾病预测问题的层级分类。
所述预测结果展示模块,用于输入患者特征及历史就诊数据,如疾病代码、用药代码、手术代码等,通过特征嵌入模块获得患者特征向量,输入训练好后的层级标记分布学习模型,即可获得最终患病风险的标记分布,即所有疾病的发病概率,并以详细的图表形式进行展示。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (10)
1.一种基于层级标记分布学习的疾病预测系统,其特征在于,该系统包括数据采集及分类模块、特征嵌入模块、标记增强模块、层级标记分布学习模块和预测结果展示模块;
所述数据采集及分类模块用于采集患者数据集,包含患者特征数据、多次就诊时的历史就诊数据,历史就诊数据中具有疾病代码,根据疾病分类知识对疾病代码进行多层次分类,构建疾病标记集合;
所述特征嵌入模块用于根据疾病标记集合划分的结果,将疾病代码映射到疾病标记集合,将数据采集及分类模块得到的患者特征数据以及历史就诊数据进行编码并以特征向量表示,将最后一次就诊时的疾病代码集合采用独热编码作为疾病标记;
所述标记增强模块用于利用标记增强算法挖掘患者特征与疾病标记之间的拓扑关系,获得患者的疾病标记分布;
所述层级标记分布学习模块用于基于标记增强模块获得的患者的疾病标记分布,构建新的训练集,用以训练层级标记分布学习模型,所述层级标记分布学习模型具有若干层,为全局网络,每一层对应一级分类,均包含若干隐含层,为局部网络,输出局部预测标记分布;全局网络在最后一层的全局特征后,输出全局预测标记分布;根据全局预测标记分布与所有层的局部预测标记分布,获得最终的标记分布;
所述预测结果展示模块用于输入患者特征及历史就诊数据,根据特征嵌入模块获得患者特征向量,输入训练好后的层级标记分布学习模型,获得最终预测的患病风险标记分布,即所有疾病的发病概率,并以图表形式进行展示。
2.根据权利要求1所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,数据采集及分类模块采集多位患者的电子病历数据,包括患者年龄和性别的基本信息,以及包括疾病代码、用药代码及手术代码的历史就诊数据。
3.根据权利要求1所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,根据疾病标记集合划分的结果,将疾病代码的父节点以及祖先节点也添加到疾病代码集合中。
4.根据权利要求1所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,层级标记分布学习模块中,局部网络中的隐含层为两个,第一个隐含层输入原始特征及上一层输入,输出全局特征,其中,对于开始的第一个隐含层,仅有原始特征;第二个隐含层将第一个隐含层的全局特征作为输入,输出局部特征,最后输出局部预测标记分布。
5.根据权利要求1所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,所述标记增强算法根据患者特征与逻辑标记生成标记分布,具体过程为:基于深度神经网络构建参数模型将患者的特征向量映射到高维空间,构建特征到标记分布的映射,根据患者特征获得标记分布,并度量标记分布到逻辑标记的距离,对于每个患者特征,采用k近邻方法找出k位患者,基于找出的患者集合重构患者特征。
6.根据权利要求5所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,基于找出的患者集合重构患者特征具体为:对于每个患者特征,采用k近邻方法找出k位患者后,构建图模型来挖掘患者在特征空间的拓扑关系,图模型顶点为患者在特征空间的点,边表示两个患者为k个近邻之一,用邻接矩阵表示其关系,矩阵中元素为边的权值,任意患者特征能够根据权重由找出的患者集合重构出来。
7.根据权利要求6所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,依据平滑损失函数,使得同一患者在疾病标记空间的拓扑关系与在特征空间的保持一致。
8.根据权利要求5所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,标记增强算法的总损失函数为最小二乘损失、平滑损失与层级损失,通过反馈学习、迭代更新使得总损失函数最小化获得标记增强的参数模型。
9.根据权利要求8所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,标记增强中层级损失的损失函数如下:
;
其中,矩阵表示节点间的隶属关系,表示根据第i个患者特征获得的标记分布;,为可训练的权值矩阵,为可训练的偏置,,为非线性函数,将患者特征映射到高维特征空间,为转置符号。
10.根据权利要求1所述的一种基于层级标记分布学习的疾病预测系统,其特征在于,层级标记分布学习模型中,局部网络的损失函数包括KL散度和违反隶属关系惩罚项,其中,层级标记分布学习的违反隶属关系惩罚项如下:
;
其中,为t层分类标记个数;通过该惩罚项,约束局部预测符合层级分类要求,即在(t-1)层中,患者没有预测到患某类疾病的风险,在t层,该患者也不会患该分类疾病下的子类疾病。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358985.4A CN116072298B (zh) | 2023-04-06 | 2023-04-06 | 一种基于层级标记分布学习的疾病预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358985.4A CN116072298B (zh) | 2023-04-06 | 2023-04-06 | 一种基于层级标记分布学习的疾病预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116072298A true CN116072298A (zh) | 2023-05-05 |
CN116072298B CN116072298B (zh) | 2023-08-15 |
Family
ID=86173536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310358985.4A Active CN116072298B (zh) | 2023-04-06 | 2023-04-06 | 一种基于层级标记分布学习的疾病预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116072298B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409978A (zh) * | 2023-12-15 | 2024-01-16 | 贵州大学 | 一种疾病预测模型构建方法、系统、装置及可读存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289467A (zh) * | 2020-11-17 | 2021-01-29 | 中山大学 | 一种面向低资源场景可迁移的医疗问诊对话系统及方法 |
KR102225278B1 (ko) * | 2020-01-31 | 2021-03-10 | 주식회사 스탠다임 | 질의되는 개체와 관련되는 질병, 유전자 또는 단백질을 예측하는 방법 및 이를 이용하여 구축되는 예측 시스템 |
CN112885423A (zh) * | 2021-03-16 | 2021-06-01 | 康键信息技术(深圳)有限公司 | 疾病标签检测方法、装置、电子设备及存储介质 |
CN113434626A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
WO2021203796A1 (zh) * | 2020-04-09 | 2021-10-14 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
CN113657550A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 基于分层计算的患者标记方法、装置、设备及存储介质 |
US20210406687A1 (en) * | 2019-05-09 | 2021-12-30 | Tencent Technology (Shenzhen) Company Limited | Method for predicting attribute of target object based on machine learning and related device |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN114783608A (zh) * | 2022-05-10 | 2022-07-22 | 电子科技大学 | 基于图自编码器的慢病人群疾病风险预测模型的构建方法 |
CN114898879A (zh) * | 2022-05-10 | 2022-08-12 | 电子科技大学 | 一种基于图表示学习的慢病风险预测方法 |
CN115240860A (zh) * | 2022-06-16 | 2022-10-25 | 深圳大学 | 一种脑疾病分类模型训练方法、装置、设备及存储介质 |
CN115345938A (zh) * | 2022-10-18 | 2022-11-15 | 汉斯夫(杭州)医学科技有限公司 | 基于全局到局部的头影标记点定位方法、设备及介质 |
WO2022251748A1 (en) * | 2021-05-28 | 2022-12-01 | Tempus Labs, Inc. | Artificial intelligence based cardiac event predictor systems and methods |
US20220390920A1 (en) * | 2021-06-03 | 2022-12-08 | Chongqing University | Method for constructing body-in-white spot welding deformation prediction model based on graph convolutional network |
-
2023
- 2023-04-06 CN CN202310358985.4A patent/CN116072298B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210406687A1 (en) * | 2019-05-09 | 2021-12-30 | Tencent Technology (Shenzhen) Company Limited | Method for predicting attribute of target object based on machine learning and related device |
KR102225278B1 (ko) * | 2020-01-31 | 2021-03-10 | 주식회사 스탠다임 | 질의되는 개체와 관련되는 질병, 유전자 또는 단백질을 예측하는 방법 및 이를 이용하여 구축되는 예측 시스템 |
WO2021203796A1 (zh) * | 2020-04-09 | 2021-10-14 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
CN112289467A (zh) * | 2020-11-17 | 2021-01-29 | 中山大学 | 一种面向低资源场景可迁移的医疗问诊对话系统及方法 |
CN112885423A (zh) * | 2021-03-16 | 2021-06-01 | 康键信息技术(深圳)有限公司 | 疾病标签检测方法、装置、电子设备及存储介质 |
WO2022251748A1 (en) * | 2021-05-28 | 2022-12-01 | Tempus Labs, Inc. | Artificial intelligence based cardiac event predictor systems and methods |
US20220390920A1 (en) * | 2021-06-03 | 2022-12-08 | Chongqing University | Method for constructing body-in-white spot welding deformation prediction model based on graph convolutional network |
CN113434626A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
WO2023025255A1 (zh) * | 2021-08-27 | 2023-03-02 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及系统 |
CN113657550A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 基于分层计算的患者标记方法、装置、设备及存储介质 |
CN113990495A (zh) * | 2021-12-27 | 2022-01-28 | 之江实验室 | 一种基于图神经网络的疾病诊断预测系统 |
CN114783608A (zh) * | 2022-05-10 | 2022-07-22 | 电子科技大学 | 基于图自编码器的慢病人群疾病风险预测模型的构建方法 |
CN114898879A (zh) * | 2022-05-10 | 2022-08-12 | 电子科技大学 | 一种基于图表示学习的慢病风险预测方法 |
CN115240860A (zh) * | 2022-06-16 | 2022-10-25 | 深圳大学 | 一种脑疾病分类模型训练方法、装置、设备及存储介质 |
CN115345938A (zh) * | 2022-10-18 | 2022-11-15 | 汉斯夫(杭州)医学科技有限公司 | 基于全局到局部的头影标记点定位方法、设备及介质 |
Non-Patent Citations (2)
Title |
---|
SHAKER EL-SAPPAGH 等: "Two-stage deep learning model for Alzheimer’s disease detection and prediction of the mild cognitive impairment time", 《NEURAL COMPUTING AND APPLICATIONS 》, vol. 2022, pages 14487 - 14509 * |
贾峥: "面向诊断决策支持的患者相似性计算方法研究", 《中国博士学位论文全文数据库 医药卫生科技辑》, vol. 2021, no. 1, pages 080 - 52 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409978A (zh) * | 2023-12-15 | 2024-01-16 | 贵州大学 | 一种疾病预测模型构建方法、系统、装置及可读存储介质 |
CN117409978B (zh) * | 2023-12-15 | 2024-04-19 | 贵州大学 | 一种疾病预测模型构建方法、系统、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116072298B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qayyum et al. | Secure and robust machine learning for healthcare: A survey | |
Shickel et al. | Deep EHR: a survey of recent advances in deep learning techniques for electronic health record (EHR) analysis | |
Che et al. | Interpretable deep models for ICU outcome prediction | |
Srinivasu et al. | From blackbox to explainable AI in healthcare: existing tools and case studies | |
US20180158552A1 (en) | Interpretable deep learning framework for mining and predictive modeling of health care data | |
Lee et al. | Machine learning in relation to emergency medicine clinical and operational scenarios: an overview | |
Sampathkumar et al. | Internet of Medical Things (IoMT) and reflective belief design-based big data analytics with Convolution Neural Network-Metaheuristic Optimization Procedure (CNN-MOP) | |
Jain et al. | Optimized levy flight model for heart disease prediction using CNN framework in big data application | |
CN116072298B (zh) | 一种基于层级标记分布学习的疾病预测系统 | |
Das et al. | Artificial intelligent reliable doctor (AIRDr.): Prospect of disease prediction using reliability | |
Mahajan | Applications of pattern recognition algorithm in health and medicine | |
Shirazi et al. | Deep learning in the healthcare industry: theory and applications | |
Sharma et al. | Data pre-processing using neural processes for modeling personalized vital-sign time-series data | |
Pradhan et al. | Optimizing CNN‐LSTM hybrid classifier using HCA for biomedical image classification | |
Leng et al. | Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data | |
Wen et al. | Integrated neural network model with pre-RBF kernels | |
Rupp et al. | Exbehrt: Extended transformer for electronic health records | |
US20210225513A1 (en) | Method to Create Digital Twins and use the Same for Causal Associations | |
Wieneke et al. | Principles of artificial intelligence and its application in cardiovascular medicine | |
Ma et al. | Semi-parametric Bayes regression with network-valued covariates | |
CN116543917A (zh) | 一种针对异构时间序列数据的信息挖掘方法 | |
Nguyen-Duc et al. | Deep EHR spotlight: a framework and mechanism to highlight events in electronic health records for explainable predictions | |
Jaffar et al. | Efficient deep learning models for predicting super-utilizers in smart hospitals | |
Kumar et al. | Deep-learning-enabled multimodal data fusion for lung disease classification | |
Keerthy et al. | Artificial intelligence in healthcare databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |