CN113314218B - 基于对比的包含竞争风险的动态生存分析设备 - Google Patents
基于对比的包含竞争风险的动态生存分析设备 Download PDFInfo
- Publication number
- CN113314218B CN113314218B CN202110692395.6A CN202110692395A CN113314218B CN 113314218 B CN113314218 B CN 113314218B CN 202110692395 A CN202110692395 A CN 202110692395A CN 113314218 B CN113314218 B CN 113314218B
- Authority
- CN
- China
- Prior art keywords
- patient
- trajectory
- unit
- representation
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004083 survival effect Effects 0.000 title claims abstract description 86
- 238000004458 analytical method Methods 0.000 title claims abstract description 70
- 238000000605 extraction Methods 0.000 claims abstract description 70
- 238000012512 characterization method Methods 0.000 claims abstract description 58
- 230000002860 competitive effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000011282 treatment Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 239000000945 filler Substances 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 2
- 230000015654 memory Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 5
- 239000000090 biomarker Substances 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 206010040047 Sepsis Diseases 0.000 description 1
- 206010000891 acute myocardial infarction Diseases 0.000 description 1
- 206010001053 acute respiratory failure Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007475 c-index Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009650 gentamicin protection assay Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 201000004193 respiratory failure Diseases 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于对比的包含竞争风险的动态生存分析设备,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;数据增强单元包括患者轨迹随机打乱模块和患者轨迹随机遮罩模块;对比学习单元包括基于患者真实轨迹表征与随机打乱轨迹表征的对比模块和基于患者真实轨迹表征与轨迹生成后表征的对比模块;表征提取单元提取患者纵向轨迹数据的表征输入生存分析预测单元得到所预测的临床目标的存活结果。本发明的基于对比的包含竞争风险的动态生存分析设备利用了患者纵向的轨迹数据,减小存在多种竞争风险时对生存预测的影响,引入对比学习来更好的提取患者轨迹数据中的一般性信息。
Description
技术领域
本发明涉及一种基于对比的包含竞争风险的动态生存分析设备。
背景技术
生存分析指的是一系列用来探究目标事件的发生的时间的统计方法,有助于我们了解关注事件(例如死亡,某种疾病的发作等)的首次发病时间的分布与协变量之间的关系,并使我们能够针对此类事件展开相应的风险评估。
生存分析一直是被认为是研究预后治疗干预影响的有效工具。临床医生经常使用生存分析来做出筛查决策或开出治疗方案,而患者则根据得到的风险相关信息来调整其生活方式以减轻此类风险。
然而,现有生存分析模型主要存在以下两点局限性:
(1)大部分生存分析模型仅利用了生物标志物和其他风险因素的纵向时序数据的一小部分。特别是,即使生物标志物和其他危险因素会随时间重复测量,生存分析通常还是基于最后一次可用的测量。而生物标志物和危险因素的演变能够显示出在预测疾病和各种风险发作方面的信息,因此这是一个严重的局限。
(2)大部分生存分析模型在处理多种竞争风险的能力上受到限制,未充分考虑与利用不同因素与目标事件的相关性。
发明内容
本发明提供了一种基于对比的包含竞争风险的动态生存分析设备,采用如下的技术方案:
一种基于对比的包含竞争风险的动态生存分析设备,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;
数据输入单元用于向数据增强单元和表征提取单元输入训练数据对其进行训练,训练数据所在数据集其中代表患者多次入院所记录的轨迹信息,代表第k次入院时第i位患者的特征,代表观察第k次入院时第i位患者存活情况的时间窗口,代表观察第i位患者第k次入院时距离第1次入院的相对时间,代表第k次入院时第i位患者在时的存活情况;
数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序;
表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征;
轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹;
对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力;
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力;
生存分析预测单元用于对表征提取单元输出的患者真实轨迹表征进行拟合,得到患者生存情况的预测结果。
患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
进一步地,表征提取单元由一个第一患者特征编码器组成,第一患者特征编码器的结构为长短期记忆神经网络,用来提取时序形式的轨迹数据表征的计算公式如下:
其中,表示第i位患者第k次入院的患者特征,表示第i位患者第k次入院的经过遮罩处理后的患者特征,表示第i位患者第k次入院经过打乱处理后的患者特征,表示全零向量,分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征;
进一步地,轨迹生成单元由一个第二患者特征解码器组成,第二患者特征解码器包括一个时间长短期记忆神经网络和一个第一多层感知器,第一多层感知器的结构设定为三层,轨迹生成单元基于表征提取单元的输出的患者轨迹遮罩表征生成遮罩数据所对应的特征数据其计算公式如下:
进一步地,轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
其中,h表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,表示轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
进一步地,生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
其中,表示输入层,e代表数据集D中患者的死因数目,Wt1为第二Sigmoid输出层的第一层网络的权重矩阵,bt1为第二Sigmoid输出层的第一层网络的偏置,表示生存分析预测单元的对患者关于第e个死因的生存分析的预测结果。
进一步地,数据输入单元向数据增强单元输入训练数据对其进行训练的具体方法为:
将数据集D按照一定比例划分为训练集和测试集;
将数据集D的训练集输入数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入表征提取单元,提取各自的轨迹表征 将患者轨迹遮罩表征输入轨迹生成单元,生成遮罩数据所对应的特征数据并作为填充物替换δm中的遮罩数据构建患者遮罩后生成的轨迹δg,δg又作为表征提取单元的输入,提取相应的表征轨迹鉴别单元以轨迹表征作为输入,输出对应的轨迹表征的鉴别结果之后对比学习单元以轨迹表征以及轨迹表征的鉴别结果作为输入,通过学习患者自身特征之间的关系来增强表征提取单元,最后将输入生存分析预测单元来展开预测工作,并对其进行训练;
选择绝对误差函数作为轨迹生成单元的重建损失函数,
选择交叉熵函数作为轨迹鉴别单元的损失函数,
其中,为轨迹鉴别单元的损失函数,分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,表示轨迹鉴别单元的鉴别结果,为数学期望函数;
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
其中,λ1,λ2,λ3,λ4为超参数;
本发明的有益之处在于所提供的基于对比的包含竞争风险的动态生存分析设备,充分利用了患者纵向的轨迹数据,能够减小存在多种竞争风险时对生存预测的影响,同时引入对比学习来更好的提取患者轨迹数据中的一般性信息,从而提高在不同临床环境下的应用性能,有助于更好的开展相应的临床研究,帮助患者得到更好的治疗和护理。
附图说明
图1是本发明的基于对比的包含竞争风险的动态生存分析设备的的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于对比的包含竞争风险的动态生存分析设备(AContrastive learning model for Dynamic Survival Analysis with CompetingRisks,CDC-Surv),包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元。
数据输入单元用于向数据增强单元和表征提取单元输入训练数据对其进行训练,训练数据所在数据集其中代表患者多次入院所记录的轨迹信息,代表第k次入院时第i位患者的特征,代表观察第k次入院时第i位患者存活情况的时间窗口,代表观察第i位患者第k次入院时距离第1次入院的相对时间,代表第k次入院时第i位患者在时的存活情况,其中,0代表存活,1,…e代表死因1到死因e。
数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序。
表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征。
轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹。
对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力。
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力。
生存分析预测单元用于对表征提取单元输出的患者真实轨迹表征进行拟合,得到患者生存情况的预测结果。
患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
进一步地,表征提取单元由一个第一患者特征编码器组成,第一患者特征编码器的结构为长短期记忆神经网络(Long Short-Term Memory,LSTM),用来提取时序形式的轨迹数据表征的计算公式如下:
其中,表示第i位患者第k次入院的患者特征,表示第i位患者第k次入院的经过遮罩处理后的患者特征,表示第i位患者第k次入院经过打乱处理后的患者特征,表示全零向量,分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征。
作为一种优选的实施方式,轨迹生成单元由一个第二患者特征解码器组成,第二患者特征解码器包括一个时间长短期记忆神经网络(Timed Long Short-Term Memory,Time-LSTM)和一个第一多层感知器(Multilayer Perceptron,MLP),第一多层感知器的结构设定为三层,轨迹生成单元基于表征提取单元的输出的患者轨迹遮罩表征生成遮罩数据所对应的特征数据其计算公式如下:
作为一种优选的实施方式,轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
其中,h表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,表示轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
作为一种优选的实施方式,生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
其中,表示输入层,e代表数据集D中患者的死因数目,Wt1为第二Sigmoid输出层的第一层网络的权重矩阵,bt1为第二Sigmoid输出层的第一层网络的偏置,表示生存分析预测单元的对患者关于第e个死因的生存分析的预测结果。
作为一种优选的实施方式,数据输入单元向数据增强单元输入训练数据对其进行训练的具体方法为:
将数据集D按照一定比例划分为训练集和测试集。
将数据集D的训练集输入数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入表征提取单元,提取各自的轨迹表征 将患者轨迹遮罩表征输入轨迹生成单元,生成遮罩数据所对应的特征数据并作为填充物替换δm中的遮罩数据构建患者遮罩后生成的轨迹δg,δg又作为表征提取单元的输入,提取相应的表征轨迹鉴别单元以轨迹表征作为输入,输出对应的轨迹表征的鉴别结果之后对比学习单元以轨迹表征以及轨迹表征的鉴别结果作为输入,通过学习患者自身特征之间的关系来增强表征提取单元,最后将输入生存分析预测单元来展开预测工作,并对其进行训练。
选择绝对误差函数作为轨迹生成单元的重建损失函数,
选择交叉熵函数作为轨迹鉴别单元的损失函数,
其中,为轨迹鉴别单元的损失函数,分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,表示轨迹鉴别单元的鉴别结果,为数学期望函数。
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
其中,λ1,λ2,λ3,λ4为超参数。
之后患者轨迹遮罩表征输入轨迹生成单元,生成遮罩数据所对应的特征数据并作为填充物替换δm中的遮罩数据构建患者遮罩后生成的轨迹δg。δg又作为表征提取单元的输入,提取相应的表征并以轨迹表征作为轨迹鉴别单元的输入,输出对应的轨迹表征的鉴别结果
最后对比学习单元以获得的轨迹表征以及轨迹表征的鉴别结果 作为输入,通过学习患者轨迹特征之间的一般性关系来增强表征提取单元提取纵向数据表征的能力。同时生存分析预测单元以为输入所述来展开不同死因下患者的生存预测。
当完成模型训练后,将目标数据集的患者样本纵向数据输入到训练好的表征提取单元中,模型单元能够根据患者的特征来输出特定死因下生存情况的预测结果。
为了更好地比较本发明所提出的基于对比的包含竞争风险的动态生存分析设备的优越性,以对于同时患有败血症、脑出血、急性呼吸衰竭、心内膜下急性心肌梗塞和肺炎这五种疾病中两种及以上的患者在不同死因下的生存情况预测为例,基于国外免费公开的重症监护临床数据集MIMIC III,本发明的设备与现有的Cox比例风险模型(CoxProportional Hazards Model,CPH),基于神经网络的Cox比例风险模型(Deep CoxProportional Hazards Network,DeepSurv),特定归因下的Cox比例风险模型(the Cause-specific Version of the Cox Proportional Hazards Model,cs-Cox)与Fine-Gray比例子分布风险模型(Fine-Gray Proportional Sub-distribution hazards Model,Fine-Gray)在MIMIC III数据集上的预测性能进行了对比。
实验结果用一致性指数(Concordance Index,C-index)来作为评估指标,五种设备的对比结果如表1所示,可见,本发明的设备的预测性能的优势非常显著。
表1本发明的设备与对比设备在五种死因下患者生存预测任务上的表现
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (6)
1.一种基于对比的包含竞争风险的动态生存分析设备,其特征在于,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;
所述数据输入单元用于向所述数据增强单元和表征提取单元输入训练数据对其进行训练,所述训练数据所在数据集其中代表患者多次入院所记录的轨迹信息,代表第k次入院时第i位患者的特征,代表观察第k次入院时第i位患者存活情况的时间窗口,代表观察第i位患者第k次入院时距离第1次入院的相对时间,代表第k次入院时第i位患者在时的存活情况;
所述数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序;
所述表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征;
所述轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹;
所述对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力;
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力;
所述生存分析预测单元用于对表征提取单元输出的所述患者真实轨迹表征进行拟合,得到患者生存情况的预测结果;
所述生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
…
其中,表示输入层,e代表所述数据集D中患者的死因数目,Wt1为所述第二Sigmoid输出层的第一层网络的权重矩阵,bt1为所述第二Sigmoid输出层的第一层网络的偏置,表示所述生存分析预测单元的对患者关于第e个死因的生存分析的预测结果;
所述数据输入单元向所述数据增强单元输入训练数据对其进行训练的具体方法为:
将所述数据集D按照一定比例划分为训练集和测试集;
将所述数据集D的训练集输入所述数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入所述表征提取单元,提取各自的轨迹表征将患者轨迹遮罩表征输入所述轨迹生成单元,生成遮罩数据所对应的特征数据并作为填充物替换δm中的遮罩数据构建患者遮罩后生成的轨迹δg,δg又作为所述表征提取单元的输入,提取相应的表征所述轨迹鉴别单元以轨迹表征作为输入,输出对应的轨迹表征的鉴别结果 之后所述对比学习单元以轨迹表征以及轨迹表征的鉴别结果作为输入,通过学习患者自身特征之间的关系来增强所述表征提取单元,最后将输入所述生存分析预测单元来展开预测工作,并对其进行训练;
选择绝对误差函数作为所述轨迹生成单元的重建损失函数,
选择交叉熵函数作为所述轨迹鉴别单元的损失函数,
其中,为所述轨迹鉴别单元的损失函数,分别为所述表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,表示所述轨迹鉴别单元的鉴别结果,为数学期望函数;
所述基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
所述基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
其中,λ1,λ2,λ3,λ4为超参数;
3.根据权利要求2所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述表征提取单元由一个第一患者特征编码器组成,所述第一患者特征编码器的结构为长短期记忆神经网络,用来提取时序形式的轨迹数据表征的计算公式如下:
其中,表示第i位患者第k次入院的患者特征,表示第i位患者第k次入院的经过遮罩处理后的患者特征,表示第i位患者第k次入院经过打乱处理后的患者特征,表示全零向量,分别为所述表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692395.6A CN113314218B (zh) | 2021-06-22 | 2021-06-22 | 基于对比的包含竞争风险的动态生存分析设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692395.6A CN113314218B (zh) | 2021-06-22 | 2021-06-22 | 基于对比的包含竞争风险的动态生存分析设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314218A CN113314218A (zh) | 2021-08-27 |
CN113314218B true CN113314218B (zh) | 2022-12-23 |
Family
ID=77379913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110692395.6A Active CN113314218B (zh) | 2021-06-22 | 2021-06-22 | 基于对比的包含竞争风险的动态生存分析设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314218B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11410777B2 (en) * | 2012-11-02 | 2022-08-09 | The University Of Chicago | Patient risk evaluation |
AU2018298137A1 (en) * | 2017-07-05 | 2020-01-23 | The Regents Of The University Of California | Assay for pre-operative prediction of organ function recovery |
US11147459B2 (en) * | 2018-01-05 | 2021-10-19 | CareBand Inc. | Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health |
CN111640510A (zh) * | 2020-04-09 | 2020-09-08 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
CN112507612B (zh) * | 2020-11-30 | 2022-08-02 | 上海交通大学 | 一种预测机器损坏时间的生存分析方法 |
-
2021
- 2021-06-22 CN CN202110692395.6A patent/CN113314218B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113314218A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al Banna et al. | Attention-based bi-directional long-short term memory network for earthquake prediction | |
Wu et al. | Beyond sparsity: Tree regularization of deep models for interpretability | |
Khalilov et al. | Advantages and Applications of Neural Networks | |
Sridhar et al. | Brain tumor classification using discrete cosine transform and probabilistic neural network | |
Caruana et al. | Using the future to" sort out" the present: Rankprop and multitask learning for medical risk evaluation | |
US20210076977A1 (en) | A method for analysis of cough sounds using disease signatures to diagnose respiratory diseases | |
Das et al. | Conditional synthetic data generation for robust machine learning applications with limited pandemic data | |
CN111248913A (zh) | 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质 | |
CN113889262B (zh) | 基于模型的数据预测方法、装置、计算机设备和存储介质 | |
Stoean et al. | Ensemble of classifiers for length of stay prediction in colorectal cancer | |
Alhassan et al. | Stacked denoising autoencoders for mortality risk prediction using imbalanced clinical data | |
Spyroglou et al. | A bayesian logistic regression approach in asthma persistence prediction | |
Kuo et al. | Using stacked denoising autoencoder for the student dropout prediction | |
US6401082B1 (en) | Autoassociative-heteroassociative neural network | |
Van Aken et al. | This patient looks like that patient: Prototypical networks for interpretable diagnosis prediction from clinical text | |
Zhan et al. | Reliably filter drug-induced liver injury literature with Natural Language processing and conformal prediction | |
Sherly | An ensemble basedheart disease predictionusing gradient boosting decision tree | |
CN116403728B (zh) | 医疗就诊数据的数据处理装置和相关设备 | |
CN113314218B (zh) | 基于对比的包含竞争风险的动态生存分析设备 | |
Cui et al. | Identifying key features in student grade prediction | |
Zhao et al. | DCACorrCapsNet: A deep channel‐attention correlative capsule network for COVID‐19 detection based on multi‐source medical images | |
Darwin et al. | Comparison of Decision Tree and Linear Regression Algorithms in the Case of Spread Prediction of COVID-19 in Indonesia | |
Jia et al. | Using deep neural network approximate Bayesian network | |
CN115565669A (zh) | 一种基于gan和多任务学习的癌症生存分析方法 | |
CN111402953B (zh) | 基于层次注意力网络的蛋白质序列分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |