CN116959715B - 一种基于时序演进过程解释的疾病预后预测系统 - Google Patents
一种基于时序演进过程解释的疾病预后预测系统 Download PDFInfo
- Publication number
- CN116959715B CN116959715B CN202311199176.XA CN202311199176A CN116959715B CN 116959715 B CN116959715 B CN 116959715B CN 202311199176 A CN202311199176 A CN 202311199176A CN 116959715 B CN116959715 B CN 116959715B
- Authority
- CN
- China
- Prior art keywords
- data
- prognosis
- module
- patient
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 90
- 201000010099 disease Diseases 0.000 title claims abstract description 65
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000008569 process Effects 0.000 title claims abstract description 27
- 238000012800 visualization Methods 0.000 claims abstract description 22
- 230000036541 health Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000013079 data visualisation Methods 0.000 claims abstract description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 21
- 208000024891 symptom Diseases 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000000875 corresponding effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 229940079593 drug Drugs 0.000 claims description 8
- 239000003814 drug Substances 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000009533 lab test Methods 0.000 claims description 6
- 210000004205 output neuron Anatomy 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 208000035965 Postoperative Complications Diseases 0.000 claims description 4
- 230000028161 membrane depolarization Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000011282 treatment Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000010339 dilation Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 208000029078 coronary artery disease Diseases 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000011269 treatment regimen Methods 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 208000009304 Acute Kidney Injury Diseases 0.000 description 1
- 206010002383 Angina Pectoris Diseases 0.000 description 1
- 208000006820 Arthralgia Diseases 0.000 description 1
- 206010007556 Cardiac failure acute Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010011409 Cross infection Diseases 0.000 description 1
- 208000032928 Dyslipidaemia Diseases 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 208000017170 Lipid metabolism disease Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000033626 Renal failure acute Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 201000011040 acute kidney failure Diseases 0.000 description 1
- 206010000891 acute myocardial infarction Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- RZEKVGVHFLEQIL-UHFFFAOYSA-N celecoxib Chemical compound C1=CC(C)=CC=C1C1=CC(C(F)(F)F)=NN1C1=CC=C(S(N)(=O)=O)C=C1 RZEKVGVHFLEQIL-UHFFFAOYSA-N 0.000 description 1
- 229960000590 celecoxib Drugs 0.000 description 1
- 229940109239 creatinine Drugs 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 206010013990 dysuria Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000024924 glomerular filtration Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000008376 long-term health Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000035485 pulse pressure Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于时序演进过程解释的疾病预后预测系统,该系统包括:数据采集模块,用于从电子病历数据库中提取患者的相关健康医疗数据;数据预处理模块,用于对相关健康医疗数据进行预处理;预后预测与归因模块,用于预测不同时间节点的预后,并对风险因素进行重要程度解释;可视化模块,基于预后预测与归因模块中得到的结果,解释预测结果并进行数据可视化。本发明融合了结构化的实验室检查数据和非结构化的病程记录的长期数据,在为患者不同时间周期下的预后做出精准预测的同时,对模型做出充分解释,并且提供可视化方法增加模型的透明度与可信度,利于责任相关方为患者提供优质、持续性的服务。
Description
技术领域
本发明涉及疾病预后预测领域,尤其涉及一种基于时序演进过程解释的疾病预后预测系统。
背景技术
疾病预后预测是指根据患者的现状预测疾病未来的进展和结果,准确的预后预测对于疾病管理有着至关重要的作用。对于治疗而言,如果能够精准的预测未来疾病对患者的影响,可以帮助医生制定能够减轻甚至预防这些影响的有效治疗方案,而有效的治疗方案将直接对预后产生正面影响。对于患者而言,获得预后信息有助于帮助患者做出重要决策,例如如何根据自身健康状况进行健康管理,是否接受某些治疗方案等。
然而,目前现有的疾病预后和风险评估方法由于缺乏以下两方面的考虑而受到制约:缺乏临床可解释性和基于时序演进过程解释的患者预后预测方法。现有的预后预测方法主要包括两类,第一类方法是基于医疗领域的专家经验,人工的构建关于疾病预后的指标评分系统,用于预测疾病发生的风险和预后评估。第二类方法是基于算法,通过机器学习和深度学习等方法挖掘与疾病预后相关的指标,弥补了人工筛选的主观性。常见的方法包括神经网络、贝叶斯网络、逻辑回归等。
1)现有的机器学习预后预测方法虽充分利用了大量的临床数据,但是在实际应用过程中缺乏明确的临床解释性,从而影响了相关技术的临床转化,难以满足临床决策支持的实际需要。
2)当前的预后预测方法通常基于患者的单次就诊所产生的实验室检验等数据建模,然而这类方法只能给出短期内的预后预测,忽略了患者的身体状况会随时间推移发生改变的情况。这类方法的适用范围较小,对于会随时间不断变化发展的疾病,例如慢性疾病,缺乏临床可行性。
3)缺少系统评价预后的方法,当前主流的方法主要是通过治疗期的指标和短期结果来改善护理质量,最常见的是跟踪住院死亡类指标、医院感染类指标和手术并发症类指标。长期结果(例如,在1年和5年后),以及以患者为中心的结果(以冠心病为例,心绞痛负担、身体功能状态和与健康相关的生活质量),更多的反映了治疗最终效果,但鲜有相关方法能够实现长期预后的评估。因此,现有的方法未结合患者出院后的长期健康状况演变对预后进行综合考量,无法驱动医院以患者为核心,为患者提供优质医疗服务。
4)现有模型或方法缺乏对非结构化数据的应用。现有的方法普遍从结构化数据(即,电子病历)中提取患者的诊疗数据,并通过人工定义的医疗质量指标公式或者是机器学习算法挖掘的相关指标公式进行计算。然而,这类方法对于数据的格式、质量和数量要求较高,且忽略了以文本的形式储存的病程记录等信息。因此,模型或方法对于综合性预后的评价相对较为片面。
发明内容
本发明目的在于针对现有技术的不足,本发明提出一种基于时序演进过程解释的疾病预后预测系统。
本发明的目的是通过以下技术方案来实现的:一种基于时序演进过程解释的疾病预后预测系统,该系统包括数据采集模块、数据预处理模块、预后预测与归因模块和可视化模块;
所述数据采集模块用于从电子病历数据库中提取患者的相关健康医疗数据;
所述数据预处理模块用于对患者的相关健康医疗数据进行预处理;
所述预后预测与归因模块包括数据融合子模块、时间卷积网络子模块和深度泰勒分解子模块;
所述数据融合子模块用于输入预处理后的患者的相关健康医疗数据,对结构化数据进行处理使数据格式与预后指标保持一致,对非结构化数据进行处理得到向量化语义特征,与处理后的结构化数据拼接后输入时间卷积网络子模块预测患者的预后;
所述深度泰勒分解子模块用于获取预后与输入特征之间的关联,对当前预测预后的原因进行解释,判断预测预后的影响因素;
所述可视化模块基于预后预测与归因模块中得到的结果,解释预测结果并进行数据可视化。
进一步地,所述患者的相关健康医疗数据包括患者的病程记录、实验室检查记录和随访记录;病程记录包括用药记录和手术记录。
进一步地,患者的相关健康医疗数据存储在数据库的多张表中,且表间存在键值连接使得各表信息得到关联。
进一步地,所述预处理包括实验室检验数据的去极值处理、数据缺失值以及预测目标的标签处理。
进一步地,所述预测目标的标签包括术后病发症的短期指标和患者自评估的中长期指标。
进一步地,对结构化数据进行处理具体过程为:基于长短期记忆网络LSTM对结构化数据进行编码后,通过池化进行融合使数据格式与预后指标保持一致。
进一步地,对非结构化数据进行处理具体过程为:根据预设的病程记录模版,构造病程输入数据,使用大语言模型LLM输出病程记录文本对应的病程向量化特征;所述病程记录模版形式为:[病程记录元素_1:元素值_1, 病程记录元素_2:元素值_2, ......, 病程记录元素_i:元素值_i],其中病程记录元素为记录的事件类型,元素值为对应症状数据。
进一步地,所述深度泰勒分解子模块将时间卷积网络子模块预测的预后作为输入,将其通过网络反向传播进行局部更新,并递归地定义上一层所有激活神经元对预测结果的贡献;通过深度泰勒分解,从一个神经元到前一层激活神经元的局部反向传播通过在被选中的节点上进行一阶泰勒分解来解释非线性因素,并对输出神经元的所有贡献度分数求和,获得节点的贡献度分数,最后得到不同输入特征对当前预测症状的影响权重。
进一步地,所述数据可视化包括当前患者后期可能出现的症状,以及这些症状出现的日期,且这些症状是由当前的哪些特征导致的。
进一步地,可视化模块实现患者维度数据可视化,患者维度的可视化界面由参数多选列表、点阵图和直方图构成,点阵图中包含数据点特征,直方图中包含数据点特征的分布情况,以及对应数据点在分布中的具体位置和其真实数值。
本发明的有益效果:本发明融合了结构化的实验室检查数据和非结构化的病程记录(包括体征、症状、既往史、用药和手术等)的长期数据(1-5年);其次,通过由时序卷积网络和深度泰勒分解构成的预测模型进行短期和长期预后的预测,可根据患者的身体状况变化做出不同时期下的预后预测,并通过归因溯源对于患者预后产生重要影响的时期和相应的特征;基于预后预测和归因溯源的结果,提供一种可视化方法,从队列、患者维度分别呈现模型输入特征对于某一预后结果的影响;最终构建一种可解释的长期预后预测系统,在为患者不同时间周期下的预后做出精准预测的同时,对模型做出充分解释,并且提供可视化方法增加模型的透明度与可信度,利于责任相关方(例如医院、医生)为患者提供优质、持续性的服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的一种基于时序演进过程解释的疾病预后预测系统的结构图。
图2为本发明的预后预测与归因模块中模型结构示意图。
图3为本发明的深度泰勒分解子模块示意图。
图4为本发明的可视化模块示意图。
图5为本发明的可视化模块中柱状图示意图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
本发明针对目前基于患者长时间健康状况变化的预后模型可解释方法的稀缺性,构建一种基于时序演进过程解释的疾病预后预测系统。
如图1所示,本发明提供的一种基于时序演进过程解释的疾病预后预测系统,包括:数据采集模块、模型预处理模块、预后预测与归因模块和可视化模块;
数据采集模块:从电子病历数据库中提取冠心病患者的相关健康医疗数据,包括患者的病程记录、实验室检查记录和随访记录;病程记录包括用药记录和手术记录。在本实施例中,这些信息储存在Oracle数据库的多张表中,且表间存在键值连接使得各表信息可以得到关联。
数据预处理模块:该模块用于对所述相关健康医疗数据进行预处理,包括实验室检验数据的去极值处理、数据缺失值以及预测标签处理等。
预后预测与归因模块:基于时序演进过程的预后预测模型TCN-DTD预测不同时间节点的预后,并对风险因素进行重要程度解释。所述模型由三个子模块构成:数据融合子模块、时间卷积网络子模块和深度泰勒分解子模块。所述数据融合子模块以数据预处理模块处理后的患者的相关健康医疗数据为输入,首先基于LSTM对结构化数据进行编码后通过池化对其进行融合使数据格式与预测标签保持一致,通过大语言模型(LLM)对非结构化数据进行处理得到向量化语义特征,与处理后的结构化数据拼接后输入时间卷积网络子模块预测患者的预后,然后利用深度泰勒分解子模块得到/>与输入特征之间的关联,对当前预测预后的原因进行解释,判断该预测预后是由患者的哪些特征影响或导致的。
可视化模块:基于预后预测与归因模块中得到的结果,解释患者的模型的预测结果并进行数据可视化,主要包括当前患者后期可能出现的症状,这些症状出现的日期,且这些症状是由当前的哪些特征影响或导致的,为患者的预防提前防范做准备。所述可视化模块包括患者维度和队列维度的可视化界面。
所述数据采集模块从数据库中分别提取随访记录、实验室检查记录和病程记录,病程记录包括用药记录和手术记录,根据患者的ID和就诊ID,对所述数据进行关联。
在本实施例中,患者每次就诊会产生对应的就诊号VISIT_OCCURRENCE_ID,用于关联单次就诊下的实验室检查记录、用药记录、手术记录和病程记录。患者的VISIT_OCCURRENCE_ID与患者的ID,即PERSON_ID之间存在记录的映射关系。例如,实验室检查记录由PERSON_ID、VISIT_OCCURRENCE_ID、测量时间、检查项目和检查结果组成。
所述数据预处理模块对于数据集中的每一位患者,将实验室检查记录、病程记录分别处理成时间序列数据,/>,其中T为能够观测到的最大时间长度。
由于模型需要预测的标签分为短期(术后病发症)和中长期指标(长期效果、患者自评估),需要对动态数据集按照标签特征的类型进行时序采样上的处理。预后标签类别如下:
以冠心病为例,使用正则匹配对随访记录进行提取,提取目标如表1所示:
表1
对于提取结果,长期效果和术后病发症两类以多任务二分类的形式进行建模;其中,每个具体指标类别对应一种二分类任务,共计9个二分类任务。患者自评估以多任务回归的方式进行建模,形成3个回归任务。
数据预处理包括数据清洗和缺失值填充。本实施例中,数据清洗包括极端值处理和删除错误值。此外,针对实验室指标类特征进行归一化处理。
对于数据集D中的极端值,本实施例中采用3倍标准差去极值方法。对于超过均值加减10倍标准差以外的数据,认为是异常数据进行剔除,对于均值加减3倍-10倍标准差之间的数据,认为是极端数据,拉回到均值加减3倍标准差,具体公式如下:
式中是标准差,/>是均值。
在患者时间序列数据中,存在一些缺失的数据。本实施例使用前向填充方法对缺失值进行填充。
所述预后预测与归因模块将经过数据预处理模块预处理后的患者数据作为模型输入,构建输入序列,所述患者数据包括实验室检查记录数据和病程记录的文本数据,其中实验室检查记录和病程记录作为模型的输入,随访记录作为预测标签;
模型的输入特征(实验室检查、病程记录)的采样频率由预后指标类比的频率决定,例如长期效果类标签的预测窗口可以为日、月、年,其对应的输入特征也应在传入预测模型前进行频率上的整合。
因此,如果预测标签特征的时间周期为数日,则需要将实验室检查按照能够观测到的最长时间维度进行前向填充,得到;病程时间序列以零填充方式得到/>,N为序列长度。
所述数据融合子模块对于时间周期为数月或数年的预后指标,则需要在预测前对输入特征按月进行聚合,以避免输入时序过长。具体的,实验室检查类特征将传入LSTM模型中进行编码和聚合,而文本类特征病程记录将传入大语言模型(LLM),如:MedBert预训练模型,进行特征提取。
如果预测预后指标是以数月或者数年为目标,则需要首先将按日为采样频率的实验室指标类特征输入LSTM进行编码后,再根据目标任务对得到的特征用池化方法进行融合,使按日为采样频率的特征与预后指标所需特征格式保持统一,进而能够同时对多种维度的病理数据进行建模。以预测患者三年后再入院概率为例,需要将实验室检查序列整合为以月为频率的时间序列,输入至预测模型中。
将上述的连续型指标拼接成大小为31×m的特征矩阵E,其中m是实验室指标类型的总数,将E输入至LSTM模型中进行编码输出同样大小的矩阵,最终进过平均池化得到大小为1×m的矩阵E’。具体计算方式如下:
在本实施例中,由于预测窗口为3年,输入的连续型数值频率为月,则表示输入序列应为36个月的实验室检查、用药和手术。因此,需要将上述步骤重复36次,最终形成输入的数据向量I。
对于非结构化数据(即病程记录),需要根据预设的病程记录模版,构造病程输入数据,使用LLM输出病程记录文本对应病程向量化特征。所述病程记录模版形式为:[病程记录元素_1:元素值_1, 病程记录元素_2:元素值_2, ......, 病程记录元素_i:元素值_i],例如, [“主要诊断: 持续性发热”,“持续时间: 一周”,“伴随症状: 关节疼痛”,“伴随症状程度: 剧烈”,“异常体征: 排尿困难”,“既往史: 糖尿病史”,“用药:西乐葆”,“手术:无”]。该构造的序列输入至MedBert模型中得到其对应的向量化语义特征。
本实施例中,预设的医疗事件模版如表2所示:
表2
对于缺失记录的日期进行零填充。所述数据向量为。
其中,是输入的第一个特征,输入的特征总数为6个,/>表示第k时刻下患者的病程记录,N为时间序列的长度(即,能够观测到的最长时间维度)。按照目标预后指标频率,对B进行时间维度的特征融合,得到能够表示B的病程语义特征。如,以池化操作,对B按照时间维度t进行特征融合,得到一个1×6的病程语义特征/>;对后续每个时间窗内的病程特征进行上述操作,将得到一个与实验室指标采样频率相同的病程语义特征序列,,/>为第N时刻的病程语义特征。
将上述得到的实验室检查序列和病程语义特征序列拼接,,构成预测模型的输入特征集/>,M为输入的总特征数。时间卷积网络具有因果约束,因此在预测t时刻的预后/>时,只能使用已经观测到的序列/>,而不能使用/>。
如图2所示,所述时间卷积网络子模块主体由残差网络、膨胀卷积和全连接层组成:
残差网络包含两层膨胀卷积和非线性映射,并通过权重将卷积核的权值归一化。残差网络还配有dropout单元来达到网络正则化的目的。
残差网络的输出表达式为:
式中为激活函数,本实施例中使用的是ReLU函数。
该模块包含一个分支F,该分支引出一系列变化,其输出与残差网络的输入x相加,并通过激活函数最后生成残差网络的输出o。全连接层对前层输出的特征进行加权求和,并把结果输入到激活函数,最终完成目标的分类。加权求和计算公式如下:
其中,b为偏置,W为网络权重矩阵,f为全连接层使用的激活函数,本实施例中使用的为softmax函数。
所述公式中的/>即膨胀卷积,与传统卷积不同的是膨胀卷积允许卷积时的输入存在间隔采样,采样率受到膨胀系数d的控制。
基于滤波器,膨胀卷积在序列中每个元素s的操作为:
具体的,f(j)表示卷积核中的第j个元素,d为膨胀系数,k为滤波器大小,“”表示卷积运算。膨胀卷积的感受野大小为/>,因此可通过增大K或者d来增加感受野。膨胀卷积使得有效窗口的大小随着层数呈指数型增长,使模型可以在使用较少的层数的情况下,获得较大的感受野。
为保证每个隐藏层和输入层的长度一致,使用padding的方式来保持后续层的长度,padding的大小为。
根据不同的预测指标,时间卷积网络子模块将采用不同的损失函数对模型进行训练。
本实施例中,对于概率类的预后指标(例如,急性心梗、中风和心衰),使用交叉熵损失函数:
对于数值类的预后指标(例如,心绞痛程度、身体机能状况),使用均方误差:
其中,n为训练数据长度,为时间卷积网络输出值,/>为样本真实值,设定损失函数最小化为优化目标。
所述深度泰勒分解子模块将时间卷积网络子模块预测的预后作为输入,通过深度泰勒分解子模块将其分解为更简单的局部更新,并递归地定义上一层所有激活神经元对预测结果的贡献/>。
初始的贡献度分数为:
所述初始贡献度分数通过网络反向传播进行局部更新,如图3所示,最终将触达输入层。其中,p和q表示网络中的神经元,且p为q前一层网络中的激活神经元。
通过深度泰勒分解,从一个神经元到前一层激活神经元的局部反向传播通过在某些被选中的节点上进行一阶泰勒分解来解释模型中的非线性因素。为了将神经元p的相关性进一步向前反传,需要对输出神经元的所有贡献度分数求和,获得某一节点的贡献度分数/>:
其中,p在反向传播中对输出神经元有贡献,为局部贡献度分数,/>是经过ReLu激活函数的神经元,/>为权重。
最后得到不同输入特征对当前预测症状的影响权重。例如,对于急性肾损伤来说,肾小球滤过率、血红蛋白、血肌酐等指标对患者影响大,而脉搏、血压等指标对患者基本无影响。
所述可视化模块实现患者维度数据可视化,患者维度的可视化界面由参数多选列表、点阵图和直方图构成,如图4所示。用户可通过点击点阵图中的数据点,预览直方图中该特征的分布情况,以及该数据点在分布中的具体位置和其真实数值。
患者维度的界面参数包括:模型预测目标预后指标、患者ID、展示特征数量、时间维度以及模型训练的时间范围。
利用数据点的形状体现特征分布情况。其中三角形代表80-100百分位,星形代表60-80百分位,正方形代表40-60百分位,菱形代表20-40百分位,圆形代表0-20百分位。
数据点大小区分特征与预测预后之间的相关程度,数据点的半径与计算得到的贡献度分数成正比,相关性越高的特征对应的数据点半径越大,表示该特征对目标预后的影响程度越高。
在本实施例中,预后指标为数据采集模块中所列的各项指标。选择特征数量n将使得可视化界面展示与某预后指标最相关的n个特征。时间维度按照目标预后的指标类型,分为日、月和年。模型训练时间范围可在所选患者已有记录的时间段内,通过拖拽时间轴的起始和终止点来进行选择。
数据点的大小由深度泰勒分解子模块的输出决定。在本实施例中,数据点的半径r和深度泰勒分解子模块输出的相关性分数关系通过以下公式计算:
所述可视化模块还能够实现队列维度数据可视化,队列维度的可视化界面由参数多选列表、柱状图和点阵图构成。本实施例中,所述队列维度的界面参数包括:队列结局预后、患者性别、患者年龄段、病史、展示特征数量、时间维度和模型训练时间范围。用户可通过选择患者性别、年龄段、和病史构建队列,比较不同队列的差异性。
具体的,对于患者的年龄,按照1-6岁为幼童,7-18岁为少年,19-29岁为青年,30-39岁为中青年组,40-49岁为中年组和50岁以上为中老年组,共划分为六个年龄组。对于病史,本实施例中可选无基础疾病、高血压、糖尿病和血脂异常等。
如图5所示,柱状图反应了各指标与预后的平均相关性,点阵图汇总了各指标通过深度泰勒分解子模块得到的所有贡献度分数。队列维度主要用于全局性地展现对于某疾病或特定人群较为重要的指标,并根据平均相关性分数对所有指标的重要性排序。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (9)
1.一种基于时序演进过程解释的疾病预后预测系统,其特征在于,该系统包括数据采集模块、数据预处理模块、预后预测与归因模块和可视化模块;
所述数据采集模块用于从电子病历数据库中提取患者的相关健康医疗数据;
所述数据预处理模块用于对患者的相关健康医疗数据进行预处理;
所述预后预测与归因模块包括数据融合子模块、时间卷积网络子模块和深度泰勒分解子模块;
所述数据融合子模块用于输入预处理后的患者的相关健康医疗数据,对结构化数据进行处理使数据格式与预后指标保持一致,对非结构化数据进行处理得到向量化语义特征,与处理后的结构化数据拼接后输入时间卷积网络子模块预测患者的预后;
所述深度泰勒分解子模块用于获取预后与输入特征之间的关联,对当前预测预后的原因进行解释,判断预测预后的影响因素;所述深度泰勒分解子模块将时间卷积网络子模块预测的预后作为输入,将其通过网络反向传播进行局部更新,并递归地定义上一层所有激活神经元对预测结果的贡献Cq;
初始的贡献度分数为:
所述初始贡献度分数通过网络反向传播进行局部更新Cp←q,最终将触达输入层;
通过深度泰勒分解,从一个神经元到前一层激活神经元的局部反向传播通过在某些被选中的节点上进行一阶泰勒分解来解释模型中的非线性因素;为了将神经元p的相关性进一步向前反传,需要对输出神经元的所有贡献度分数Cp←q求和,获得某一节点的贡献度分数Cp:
Cp=ΣqCp←q
其中,p在反向传播中对输出神经元有贡献,Cp←q为局部贡献度分数,ap是经过ReLu激活函数的神经元,wpq为权重;
对输出神经元的所有贡献度分数求和,获得节点的贡献度分数,最后得到不同输入特征对当前预测症状的影响权重;
所述可视化模块基于预后预测与归因模块中得到的结果,解释预测结果并进行数据可视化。
2.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,所述患者的相关健康医疗数据包括患者的病程记录、实验室检查记录和随访记录;病程记录包括用药记录和手术记录。
3.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,患者的相关健康医疗数据存储在数据库的多张表中,且表间存在键值连接使得各表信息得到关联。
4.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,所述预处理包括实验室检验数据的去极值处理、数据缺失值以及预测目标的标签处理。
5.根据权利要求4所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,所述预测目标的标签包括术后病发症的短期指标和患者自评估的中长期指标。
6.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,对结构化数据进行处理具体过程为:基于长短期记忆网络LSTM对结构化数据进行编码后,通过池化进行融合使数据格式与预后指标保持一致。
7.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,对非结构化数据进行处理具体过程为:根据预设的病程记录模版,构造病程输入数据,使用大语言模型LLM输出病程记录文本对应的病程向量化特征;所述病程记录模版形式为:[病程记录元素_1:元素值_1,病程记录元素_2:元素值_2,......,病程记录元素_i:元素值_i],其中病程记录元素为记录的事件类型,元素值为对应症状数据。
8.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,所述数据可视化包括当前患者后期可能出现的症状,以及这些症状出现的日期,且这些症状是由当前的哪些特征导致的。
9.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统,其特征在于,可视化模块实现患者维度数据可视化,患者维度的可视化界面由参数多选列表、点阵图和直方图构成,点阵图中包含数据点特征,直方图中包含数据点特征的分布情况,以及对应数据点在分布中的具体位置和其真实数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199176.XA CN116959715B (zh) | 2023-09-18 | 2023-09-18 | 一种基于时序演进过程解释的疾病预后预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311199176.XA CN116959715B (zh) | 2023-09-18 | 2023-09-18 | 一种基于时序演进过程解释的疾病预后预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116959715A CN116959715A (zh) | 2023-10-27 |
CN116959715B true CN116959715B (zh) | 2024-01-09 |
Family
ID=88462320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311199176.XA Active CN116959715B (zh) | 2023-09-18 | 2023-09-18 | 一种基于时序演进过程解释的疾病预后预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959715B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117577333B (zh) * | 2024-01-17 | 2024-04-09 | 浙江大学 | 基于因果特征学习的多中心临床预后预测系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347837A (zh) * | 2019-07-17 | 2019-10-18 | 电子科技大学 | 一种心血管疾病非计划再住院风险预测方法 |
US10468142B1 (en) * | 2018-07-27 | 2019-11-05 | University Of Miami | Artificial intelligence-based system and methods for corneal diagnosis |
KR20200063364A (ko) * | 2018-11-23 | 2020-06-05 | 네이버 주식회사 | 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템 |
CN111798975A (zh) * | 2020-06-01 | 2020-10-20 | 山东师范大学 | 基于循环时间卷积网络的疾病诊断系统、设备及介质 |
WO2021203796A1 (zh) * | 2020-04-09 | 2021-10-14 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
CN113851220A (zh) * | 2021-08-17 | 2021-12-28 | 合肥工业大学 | 基于时序医疗健康数据的病情趋势预测方法和系统 |
CN113921141A (zh) * | 2021-12-14 | 2022-01-11 | 之江实验室 | 一种个体慢病演进风险可视化评估方法及系统 |
CN114334162A (zh) * | 2022-01-11 | 2022-04-12 | 平安科技(深圳)有限公司 | 疾病患者智能预后预测方法、装置、存储介质及设备 |
CN114420231A (zh) * | 2022-01-14 | 2022-04-29 | 东南大学 | 一种可解释的急性肾损伤持续预警方法、系统、存储介质及电子设备 |
KR20220068731A (ko) * | 2020-11-19 | 2022-05-26 | 주식회사 에어딥 | 감염병 확산 패턴인식에 기반한 실시간 감염병 조기탐지모델 학습 방법 |
CN115049069A (zh) * | 2022-06-01 | 2022-09-13 | 东南大学 | 一种可视化交互式的脓毒症早期智能预警方法 |
CN115527678A (zh) * | 2022-10-24 | 2022-12-27 | 中国人民解放军总医院 | 融合病历文本的Nomogram ICU老年疾病风险评分模型、装置、及其建立方法 |
CN116092668A (zh) * | 2023-01-13 | 2023-05-09 | 大连大学 | 一种融合多元异构数据的心衰患者再入院预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11651252B2 (en) * | 2019-02-26 | 2023-05-16 | Flatiron Health, Inc. | Prognostic score based on health information |
-
2023
- 2023-09-18 CN CN202311199176.XA patent/CN116959715B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10468142B1 (en) * | 2018-07-27 | 2019-11-05 | University Of Miami | Artificial intelligence-based system and methods for corneal diagnosis |
KR20200063364A (ko) * | 2018-11-23 | 2020-06-05 | 네이버 주식회사 | 시계열 의료 데이터를 통한 질병 예후 예측을 위한 딥 뉴럴 네트워크의 분류 결과 시각화 방법 및 시스템 |
CN110347837A (zh) * | 2019-07-17 | 2019-10-18 | 电子科技大学 | 一种心血管疾病非计划再住院风险预测方法 |
WO2021203796A1 (zh) * | 2020-04-09 | 2021-10-14 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
CN111798975A (zh) * | 2020-06-01 | 2020-10-20 | 山东师范大学 | 基于循环时间卷积网络的疾病诊断系统、设备及介质 |
KR20220068731A (ko) * | 2020-11-19 | 2022-05-26 | 주식회사 에어딥 | 감염병 확산 패턴인식에 기반한 실시간 감염병 조기탐지모델 학습 방법 |
CN113851220A (zh) * | 2021-08-17 | 2021-12-28 | 合肥工业大学 | 基于时序医疗健康数据的病情趋势预测方法和系统 |
CN113921141A (zh) * | 2021-12-14 | 2022-01-11 | 之江实验室 | 一种个体慢病演进风险可视化评估方法及系统 |
WO2023109199A1 (zh) * | 2021-12-14 | 2023-06-22 | 之江实验室 | 一种个体慢病演进风险可视化评估方法及系统 |
CN114334162A (zh) * | 2022-01-11 | 2022-04-12 | 平安科技(深圳)有限公司 | 疾病患者智能预后预测方法、装置、存储介质及设备 |
CN114420231A (zh) * | 2022-01-14 | 2022-04-29 | 东南大学 | 一种可解释的急性肾损伤持续预警方法、系统、存储介质及电子设备 |
CN115049069A (zh) * | 2022-06-01 | 2022-09-13 | 东南大学 | 一种可视化交互式的脓毒症早期智能预警方法 |
CN115527678A (zh) * | 2022-10-24 | 2022-12-27 | 中国人民解放军总医院 | 融合病历文本的Nomogram ICU老年疾病风险评分模型、装置、及其建立方法 |
CN116092668A (zh) * | 2023-01-13 | 2023-05-09 | 大连大学 | 一种融合多元异构数据的心衰患者再入院预测方法 |
Non-Patent Citations (2)
Title |
---|
Predicting Visual Acuity in Patients Treated for AMD;Marginean, BA等;《DIAGNOSTICS》;第12卷(第6期);第1-23页 * |
时间序列在呼吸道传染病研究中的可视化分析;张裕晓等;《预防医学情报杂志》;第39卷(第10期);第1267-1276页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116959715A (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669792B2 (en) | Medical scan triaging system and methods for use therewith | |
WO2023078025A1 (zh) | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 | |
Dey et al. | Study and analysis of data mining algorithms for healthcare decision support system | |
Zhang et al. | HCNN: Heterogeneous convolutional neural networks for comorbid risk prediction with electronic health records | |
Morid et al. | Learning hidden patterns from patient multivariate time series data using convolutional neural networks: A case study of healthcare cost prediction | |
CN116959715B (zh) | 一种基于时序演进过程解释的疾病预后预测系统 | |
Theerthagiri et al. | Diagnosis and classification of the diabetes using machine learning algorithms | |
CN113160986A (zh) | 用于预测全身炎症反应综合征发展的模型构建方法及系统 | |
RU2752792C1 (ru) | Система для поддержки принятия врачебных решений | |
Schlosser et al. | Visual acuity prediction on real-life patient data using a machine learning based multistage system | |
Manimala et al. | Advancements in deep learning techniques for analyzing electronic medical records | |
CN116230222A (zh) | 对冠心病住院患者死亡概率预测的方法 | |
Bhardwaj et al. | Improved healthcare monitoring of coronary heart disease patients in time-series fashion using deep learning model | |
Sudha | Applied Computational Intelligence | |
Gupta et al. | An overview of clinical decision support system (CDSS) as a computational tool and its applications in public health | |
CN113990502A (zh) | 一种基于异构图神经网络的icu心衰预测系统 | |
CN117079821B (zh) | 一种患者住院事件预测方法 | |
Hanji et al. | Twin-RSA: deep learning-based automated heterogeneous data fusion approach for patient progression prediction using EHR data | |
CN117235487B (zh) | 一种用于预测哮喘患者住院事件的特征提取方法和系统 | |
AU2021102832A4 (en) | System & method for automatic health prediction using fuzzy based machine learning | |
CN116434969B (zh) | 一种基于因果结构不变性的多中心慢性病预测装置 | |
Shyamala et al. | Machine Learning Algorithms for Healthcare Data Analytics | |
Dirigeant | Hugo De Oliveira | |
Manral et al. | Role of Data Science in Revolutionizing Healthcare | |
Prouvost et al. | Adverse Event Prediction by Telemonitoring and Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |