CN113314218B - 基于对比的包含竞争风险的动态生存分析设备 - Google Patents

基于对比的包含竞争风险的动态生存分析设备 Download PDF

Info

Publication number
CN113314218B
CN113314218B CN202110692395.6A CN202110692395A CN113314218B CN 113314218 B CN113314218 B CN 113314218B CN 202110692395 A CN202110692395 A CN 202110692395A CN 113314218 B CN113314218 B CN 113314218B
Authority
CN
China
Prior art keywords
patient
trajectory
unit
representation
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110692395.6A
Other languages
English (en)
Other versions
CN113314218A (zh
Inventor
黄正行
洪草根
陈晋飙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110692395.6A priority Critical patent/CN113314218B/zh
Publication of CN113314218A publication Critical patent/CN113314218A/zh
Application granted granted Critical
Publication of CN113314218B publication Critical patent/CN113314218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于对比的包含竞争风险的动态生存分析设备,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;数据增强单元包括患者轨迹随机打乱模块和患者轨迹随机遮罩模块;对比学习单元包括基于患者真实轨迹表征与随机打乱轨迹表征的对比模块和基于患者真实轨迹表征与轨迹生成后表征的对比模块;表征提取单元提取患者纵向轨迹数据的表征输入生存分析预测单元得到所预测的临床目标的存活结果。本发明的基于对比的包含竞争风险的动态生存分析设备利用了患者纵向的轨迹数据,减小存在多种竞争风险时对生存预测的影响,引入对比学习来更好的提取患者轨迹数据中的一般性信息。

Description

基于对比的包含竞争风险的动态生存分析设备
技术领域
本发明涉及一种基于对比的包含竞争风险的动态生存分析设备。
背景技术
生存分析指的是一系列用来探究目标事件的发生的时间的统计方法,有助于我们了解关注事件(例如死亡,某种疾病的发作等)的首次发病时间的分布与协变量之间的关系,并使我们能够针对此类事件展开相应的风险评估。
生存分析一直是被认为是研究预后治疗干预影响的有效工具。临床医生经常使用生存分析来做出筛查决策或开出治疗方案,而患者则根据得到的风险相关信息来调整其生活方式以减轻此类风险。
然而,现有生存分析模型主要存在以下两点局限性:
(1)大部分生存分析模型仅利用了生物标志物和其他风险因素的纵向时序数据的一小部分。特别是,即使生物标志物和其他危险因素会随时间重复测量,生存分析通常还是基于最后一次可用的测量。而生物标志物和危险因素的演变能够显示出在预测疾病和各种风险发作方面的信息,因此这是一个严重的局限。
(2)大部分生存分析模型在处理多种竞争风险的能力上受到限制,未充分考虑与利用不同因素与目标事件的相关性。
发明内容
本发明提供了一种基于对比的包含竞争风险的动态生存分析设备,采用如下的技术方案:
一种基于对比的包含竞争风险的动态生存分析设备,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;
数据输入单元用于向数据增强单元和表征提取单元输入训练数据对其进行训练,训练数据所在数据集
Figure GDA0003833823970000011
其中
Figure GDA0003833823970000012
代表患者多次入院所记录的轨迹信息,
Figure GDA0003833823970000013
代表第k次入院时第i位患者的特征,
Figure GDA0003833823970000014
代表观察第k次入院时第i位患者存活情况的时间窗口,
Figure GDA0003833823970000015
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure GDA0003833823970000016
代表第k次入院时第i位患者在
Figure GDA0003833823970000017
时的存活情况;
数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序;
患者轨迹随机遮罩模块,用于随机对患者轨迹数据中第k次入院的特征数据xk进行遮罩,由相同维度的全零向量
Figure GDA0003833823970000018
替换xk
表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征;
轨迹生成单元主要基于的随机遮罩后的患者轨迹的表征,生成遮罩数据
Figure GDA0003833823970000021
所对应的特征数据
Figure GDA0003833823970000022
并用
Figure GDA0003833823970000023
与真实的轨迹数据xk拟合;
轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹;
对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力;
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力;
生存分析预测单元用于对表征提取单元输出的患者真实轨迹表征进行拟合,得到患者生存情况的预测结果。
进一步地,数据增强单元由患者轨迹随机打乱模块和患者轨迹随机遮罩模块组成,患者的真实轨迹
Figure GDA0003833823970000024
作为输入,患者轨迹随机打乱模块输出被打乱后的患者轨迹:
Figure GDA0003833823970000025
患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
Figure GDA0003833823970000026
其中,
Figure GDA0003833823970000027
Figure GDA0003833823970000028
为具有相同维度的全零向量。
进一步地,表征提取单元由一个第一患者特征编码器组成,第一患者特征编码器的结构为长短期记忆神经网络,用来提取时序形式的轨迹数据表征的计算公式如下:
Figure GDA0003833823970000029
Figure GDA00038338239700000210
Figure GDA00038338239700000211
其中,
Figure GDA00038338239700000212
表示第i位患者第k次入院的患者特征,
Figure GDA00038338239700000213
表示第i位患者第k次入院的经过遮罩处理后的患者特征,
Figure GDA00038338239700000214
表示第i位患者第k次入院经过打乱处理后的患者特征,
Figure GDA00038338239700000215
表示全零向量,
Figure GDA0003833823970000031
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征;
表征提取单元计算所得的患者最后一次入院的表征
Figure GDA0003833823970000032
和患者特征
Figure GDA0003833823970000033
最终组合成患者轨迹的特征表示
Figure GDA0003833823970000034
作为表征提取单元的输出,其中,
Figure GDA0003833823970000035
分别为表征提取单元输出的患者初始轨迹表征、患者轨迹遮罩表征以及患者轨迹打乱表征。
进一步地,轨迹生成单元由一个第二患者特征解码器组成,第二患者特征解码器包括一个时间长短期记忆神经网络和一个第一多层感知器,第一多层感知器的结构设定为三层,轨迹生成单元基于表征提取单元的输出的患者轨迹遮罩表征
Figure GDA0003833823970000036
生成遮罩数据
Figure GDA0003833823970000037
所对应的特征数据
Figure GDA0003833823970000038
其计算公式如下:
Figure GDA0003833823970000039
Figure GDA00038338239700000310
Figure GDA00038338239700000311
其中,
Figure GDA00038338239700000312
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure GDA00038338239700000313
表示全零向量,
Figure GDA00038338239700000314
表示解码器解码出来的第i位患者第k次入院时的患者表征,
Figure GDA00038338239700000315
表示解码器生成的第i位患者第k次入院时的患者特征。
进一步地,轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
Figure GDA00038338239700000316
其中,h表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,
Figure GDA00038338239700000317
表示轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
进一步地,生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
Figure GDA00038338239700000318
Figure GDA0003833823970000041
其中,
Figure GDA0003833823970000042
表示输入层,e代表数据集D中患者的死因数目,Wt1为第二Sigmoid输出层的第一层网络的权重矩阵,bt1为第二Sigmoid输出层的第一层网络的偏置,
Figure GDA0003833823970000043
表示生存分析预测单元的对患者关于第e个死因的生存分析的预测结果。
进一步地,数据输入单元向数据增强单元输入训练数据对其进行训练的具体方法为:
将数据集D按照一定比例划分为训练集和测试集;
将数据集D的训练集输入数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入表征提取单元,提取各自的轨迹表征
Figure GDA0003833823970000044
Figure GDA0003833823970000045
将患者轨迹遮罩表征
Figure GDA0003833823970000046
输入轨迹生成单元,生成遮罩数据
Figure GDA0003833823970000047
所对应的特征数据
Figure GDA0003833823970000048
并作为填充物替换δm中的遮罩数据
Figure GDA0003833823970000049
构建患者遮罩后生成的轨迹δg,δg又作为表征提取单元的输入,提取相应的表征
Figure GDA00038338239700000410
轨迹鉴别单元以轨迹表征
Figure GDA00038338239700000411
作为输入,输出对应的轨迹表征的鉴别结果
Figure GDA00038338239700000412
之后对比学习单元以轨迹表征
Figure GDA00038338239700000413
以及轨迹表征的鉴别结果
Figure GDA00038338239700000414
作为输入,通过学习患者自身特征之间的关系来增强表征提取单元,最后将
Figure GDA00038338239700000415
输入生存分析预测单元来展开预测工作,并对其进行训练;
将数据集D的测试集输入表征提取单元,生成患者初始轨迹特征表示
Figure GDA00038338239700000416
并输入生存分析预测单元,对其进行验证。
进一步地,将数据集D的训练集输入数据增强单元与表征提取单元,生成轨迹表征
Figure GDA00038338239700000417
并输入轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元,对其进行训练的具体方法为:
选择绝对误差函数作为轨迹生成单元的重建损失函数,
Figure GDA00038338239700000418
其中
Figure GDA00038338239700000419
为轨迹生成单元的损失函数,
Figure GDA00038338239700000420
为数学期望函数,
选择交叉熵函数作为轨迹鉴别单元的损失函数,
Figure GDA00038338239700000421
其中,
Figure GDA00038338239700000422
为轨迹鉴别单元的损失函数,
Figure GDA00038338239700000423
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,
Figure GDA0003833823970000051
表示轨迹鉴别单元的鉴别结果,
Figure GDA0003833823970000052
为数学期望函数;
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
Figure GDA0003833823970000053
基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
Figure GDA0003833823970000054
生存分析预测单元的损失函数由两部分组成,分别为分类损失
Figure GDA0003833823970000055
和负对数似然损失
Figure GDA0003833823970000056
所属损失各自公式为:
Figure GDA0003833823970000057
Figure GDA0003833823970000058
其中,
Figure GDA0003833823970000059
为生存分析预测单元的分类损失,
Figure GDA00038338239700000510
为生存分析预测单元的负对数似然损失,
Figure GDA00038338239700000511
代表第k次入院时第i位患者在
Figure GDA00038338239700000512
时的存活情况,
Figure GDA00038338239700000513
代表临床目标生存情况预测结果;
轨迹生成单元、轨迹鉴别单元和生存分析预测单元的总损失函数
Figure GDA00038338239700000514
为:
Figure GDA00038338239700000515
其中,λ1,λ2,λ3,λ4为超参数;
优化总损失函数
Figure GDA00038338239700000516
在总损失函数
Figure GDA00038338239700000517
不再下降时,停止训练。
进一步地,通过Adam算法优化总损失函数
Figure GDA00038338239700000518
本发明的有益之处在于所提供的基于对比的包含竞争风险的动态生存分析设备,充分利用了患者纵向的轨迹数据,能够减小存在多种竞争风险时对生存预测的影响,同时引入对比学习来更好的提取患者轨迹数据中的一般性信息,从而提高在不同临床环境下的应用性能,有助于更好的开展相应的临床研究,帮助患者得到更好的治疗和护理。
附图说明
图1是本发明的基于对比的包含竞争风险的动态生存分析设备的的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于对比的包含竞争风险的动态生存分析设备(AContrastive learning model for Dynamic Survival Analysis with CompetingRisks,CDC-Surv),包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元。
数据输入单元用于向数据增强单元和表征提取单元输入训练数据对其进行训练,训练数据所在数据集
Figure GDA0003833823970000061
其中
Figure GDA0003833823970000062
代表患者多次入院所记录的轨迹信息,
Figure GDA0003833823970000063
代表第k次入院时第i位患者的特征,
Figure GDA0003833823970000064
代表观察第k次入院时第i位患者存活情况的时间窗口,
Figure GDA0003833823970000065
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure GDA0003833823970000066
代表第k次入院时第i位患者在
Figure GDA0003833823970000067
时的存活情况,其中,0代表存活,1,…e代表死因1到死因e。
数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序。
患者轨迹随机遮罩模块,用于随机对患者轨迹数据中第k次入院的特征数据xk进行遮罩,由相同维度的全零向量
Figure GDA0003833823970000068
替换xk
表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征。
轨迹生成单元主要基于的随机遮罩后的患者轨迹的表征,生成遮罩数据
Figure GDA0003833823970000069
所对应的特征数据
Figure GDA00038338239700000610
并用
Figure GDA00038338239700000611
与真实的轨迹数据xk拟合。
轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹。
对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力。
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力。
生存分析预测单元用于对表征提取单元输出的患者真实轨迹表征进行拟合,得到患者生存情况的预测结果。
具体而言,数据增强单元由患者轨迹随机打乱模块和患者轨迹随机遮罩模块组成,患者的真实轨迹
Figure GDA0003833823970000071
作为输入,患者轨迹随机打乱模块输出被打乱后的患者轨迹:
Figure GDA0003833823970000072
患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
Figure GDA0003833823970000073
其中,
Figure GDA0003833823970000074
Figure GDA0003833823970000075
为具有相同维度的全零向量。
进一步地,表征提取单元由一个第一患者特征编码器组成,第一患者特征编码器的结构为长短期记忆神经网络(Long Short-Term Memory,LSTM),用来提取时序形式的轨迹数据表征的计算公式如下:
Figure GDA0003833823970000076
Figure GDA0003833823970000077
Figure GDA0003833823970000078
其中,
Figure GDA0003833823970000079
表示第i位患者第k次入院的患者特征,
Figure GDA00038338239700000710
表示第i位患者第k次入院的经过遮罩处理后的患者特征,
Figure GDA00038338239700000711
表示第i位患者第k次入院经过打乱处理后的患者特征,
Figure GDA00038338239700000712
表示全零向量,
Figure GDA00038338239700000713
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征。
表征提取单元计算所得的患者最后一次入院的表征
Figure GDA00038338239700000714
和患者特征
Figure GDA00038338239700000715
最终组合成患者轨迹的特征表示
Figure GDA00038338239700000716
作为表征提取单元的输出,其中,
Figure GDA00038338239700000717
分别为表征提取单元输出的患者初始轨迹表征、患者轨迹遮罩表征以及患者轨迹打乱表征。
作为一种优选的实施方式,轨迹生成单元由一个第二患者特征解码器组成,第二患者特征解码器包括一个时间长短期记忆神经网络(Timed Long Short-Term Memory,Time-LSTM)和一个第一多层感知器(Multilayer Perceptron,MLP),第一多层感知器的结构设定为三层,轨迹生成单元基于表征提取单元的输出的患者轨迹遮罩表征
Figure GDA00038338239700000718
生成遮罩数据
Figure GDA00038338239700000719
所对应的特征数据
Figure GDA00038338239700000720
其计算公式如下:
Figure GDA00038338239700000721
Figure GDA0003833823970000081
Figure GDA0003833823970000082
其中,
Figure GDA0003833823970000083
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure GDA0003833823970000084
表示全零向量,
Figure GDA0003833823970000085
表示解码器解码出来的第i位患者第k次入院时的患者表征,
Figure GDA0003833823970000086
表示解码器生成的第i位患者第k次入院时的患者特征。
作为一种优选的实施方式,轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
Figure GDA0003833823970000087
其中,h表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,
Figure GDA0003833823970000088
表示轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
作为一种优选的实施方式,生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
Figure GDA0003833823970000089
其中,
Figure GDA00038338239700000810
表示输入层,e代表数据集D中患者的死因数目,Wt1为第二Sigmoid输出层的第一层网络的权重矩阵,bt1为第二Sigmoid输出层的第一层网络的偏置,
Figure GDA00038338239700000811
表示生存分析预测单元的对患者关于第e个死因的生存分析的预测结果。
作为一种优选的实施方式,数据输入单元向数据增强单元输入训练数据对其进行训练的具体方法为:
将数据集D按照一定比例划分为训练集和测试集。
将数据集D的训练集输入数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入表征提取单元,提取各自的轨迹表征
Figure GDA00038338239700000812
Figure GDA0003833823970000091
将患者轨迹遮罩表征
Figure GDA0003833823970000092
输入轨迹生成单元,生成遮罩数据
Figure GDA0003833823970000093
所对应的特征数据
Figure GDA0003833823970000094
并作为填充物替换δm中的遮罩数据
Figure GDA0003833823970000095
构建患者遮罩后生成的轨迹δg,δg又作为表征提取单元的输入,提取相应的表征
Figure GDA0003833823970000096
轨迹鉴别单元以轨迹表征
Figure GDA0003833823970000097
作为输入,输出对应的轨迹表征的鉴别结果
Figure GDA0003833823970000098
之后对比学习单元以轨迹表征
Figure GDA0003833823970000099
以及轨迹表征的鉴别结果
Figure GDA00038338239700000910
作为输入,通过学习患者自身特征之间的关系来增强表征提取单元,最后将
Figure GDA00038338239700000911
输入生存分析预测单元来展开预测工作,并对其进行训练。
将数据集D的测试集输入表征提取单元,生成患者初始轨迹特征表示
Figure GDA00038338239700000912
并输入生存分析预测单元,对其进行验证。
作为一种优选的实施方式,将数据集D的训练集输入数据增强单元与表征提取单元,生成轨迹表征
Figure GDA00038338239700000913
并输入轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元,对其进行训练的具体方法为:
选择绝对误差函数作为轨迹生成单元的重建损失函数,
Figure GDA00038338239700000914
其中
Figure GDA00038338239700000915
为轨迹生成单元的损失函数,
Figure GDA00038338239700000916
为数学期望函数,
选择交叉熵函数作为轨迹鉴别单元的损失函数,
Figure GDA00038338239700000917
其中,
Figure GDA00038338239700000918
为轨迹鉴别单元的损失函数,
Figure GDA00038338239700000919
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,
Figure GDA00038338239700000920
表示轨迹鉴别单元的鉴别结果,
Figure GDA00038338239700000921
为数学期望函数。
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
Figure GDA00038338239700000922
基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
Figure GDA00038338239700000923
生存分析预测单元的损失函数由两部分组成,分别为分类损失
Figure GDA0003833823970000101
和负对数似然损失
Figure GDA0003833823970000102
所属损失各自公式为:
Figure GDA0003833823970000103
Figure GDA0003833823970000104
其中,
Figure GDA0003833823970000105
为生存分析预测单元的分类损失,
Figure GDA0003833823970000106
为生存分析预测单元的负对数似然损失,
Figure GDA0003833823970000107
代表第k次入院时第i位患者在
Figure GDA0003833823970000108
时的存活情况,
Figure GDA0003833823970000109
代表临床目标生存情况预测结果。
轨迹生成单元、轨迹鉴别单元和生存分析预测单元的总损失函数
Figure GDA00038338239700001010
为:
Figure GDA00038338239700001011
其中,λ1,λ2,λ3,λ4为超参数。
优化总损失函数
Figure GDA00038338239700001012
在总损失函数
Figure GDA00038338239700001013
不再下降时,停止训练。
作为一种优选的实施方式,通过Adam算法优化总损失函数
Figure GDA00038338239700001014
应用时,首先将初始轨迹数据δ输入所述数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm。δs,δm与初始患者轨迹数据δ一起输入表征提取单元,得到各自的轨迹表征
Figure GDA00038338239700001015
之后患者轨迹遮罩表征
Figure GDA00038338239700001016
输入轨迹生成单元,生成遮罩数据
Figure GDA00038338239700001017
所对应的特征数据
Figure GDA00038338239700001018
并作为填充物替换δm中的遮罩数据
Figure GDA00038338239700001019
构建患者遮罩后生成的轨迹δg。δg又作为表征提取单元的输入,提取相应的表征
Figure GDA00038338239700001020
并以轨迹表征
Figure GDA00038338239700001021
作为轨迹鉴别单元的输入,输出对应的轨迹表征的鉴别结果
Figure GDA00038338239700001022
最后对比学习单元以获得的轨迹表征
Figure GDA00038338239700001023
以及轨迹表征的鉴别结果
Figure GDA00038338239700001024
Figure GDA00038338239700001025
作为输入,通过学习患者轨迹特征之间的一般性关系来增强表征提取单元提取纵向数据表征的能力。同时生存分析预测单元以
Figure GDA00038338239700001026
为输入所述来展开不同死因下患者的生存预测。
当完成模型训练后,将目标数据集的患者样本纵向数据输入到训练好的表征提取单元中,模型单元能够根据患者的特征来输出特定死因下生存情况的预测结果。
为了更好地比较本发明所提出的基于对比的包含竞争风险的动态生存分析设备的优越性,以对于同时患有败血症、脑出血、急性呼吸衰竭、心内膜下急性心肌梗塞和肺炎这五种疾病中两种及以上的患者在不同死因下的生存情况预测为例,基于国外免费公开的重症监护临床数据集MIMIC III,本发明的设备与现有的Cox比例风险模型(CoxProportional Hazards Model,CPH),基于神经网络的Cox比例风险模型(Deep CoxProportional Hazards Network,DeepSurv),特定归因下的Cox比例风险模型(the Cause-specific Version of the Cox Proportional Hazards Model,cs-Cox)与Fine-Gray比例子分布风险模型(Fine-Gray Proportional Sub-distribution hazards Model,Fine-Gray)在MIMIC III数据集上的预测性能进行了对比。
实验结果用一致性指数(Concordance Index,C-index)来作为评估指标,五种设备的对比结果如表1所示,可见,本发明的设备的预测性能的优势非常显著。
表1本发明的设备与对比设备在五种死因下患者生存预测任务上的表现
Figure GDA0003833823970000111
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (6)

1.一种基于对比的包含竞争风险的动态生存分析设备,其特征在于,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;
所述数据输入单元用于向所述数据增强单元和表征提取单元输入训练数据对其进行训练,所述训练数据所在数据集
Figure FDA0003833823960000011
其中
Figure FDA0003833823960000012
代表患者多次入院所记录的轨迹信息,
Figure FDA0003833823960000013
代表第k次入院时第i位患者的特征,
Figure FDA0003833823960000014
代表观察第k次入院时第i位患者存活情况的时间窗口,
Figure FDA0003833823960000015
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure FDA0003833823960000016
代表第k次入院时第i位患者在
Figure FDA0003833823960000017
时的存活情况;
所述数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序;
患者轨迹随机遮罩模块,用于随机对患者轨迹数据中第k次入院的特征数据xk进行遮罩,由相同维度的全零向量
Figure FDA0003833823960000018
替换xk
所述表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征;
所述轨迹生成单元主要基于所述的随机遮罩后的患者轨迹的表征,生成遮罩数据
Figure FDA0003833823960000019
所对应的特征数据
Figure FDA00038338239600000110
并用
Figure FDA00038338239600000111
与真实的轨迹数据xk拟合;
所述轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹;
所述对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力;
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力;
所述生存分析预测单元用于对表征提取单元输出的所述患者真实轨迹表征进行拟合,得到患者生存情况的预测结果;
所述生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
Figure FDA0003833823960000021
Figure FDA0003833823960000022
Figure FDA0003833823960000023
其中,
Figure FDA0003833823960000024
表示输入层,e代表所述数据集D中患者的死因数目,Wt1为所述第二Sigmoid输出层的第一层网络的权重矩阵,bt1为所述第二Sigmoid输出层的第一层网络的偏置,
Figure FDA0003833823960000025
表示所述生存分析预测单元的对患者关于第e个死因的生存分析的预测结果;
所述数据输入单元向所述数据增强单元输入训练数据对其进行训练的具体方法为:
将所述数据集D按照一定比例划分为训练集和测试集;
将所述数据集D的训练集输入所述数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入所述表征提取单元,提取各自的轨迹表征
Figure FDA0003833823960000026
将患者轨迹遮罩表征
Figure FDA0003833823960000027
输入所述轨迹生成单元,生成遮罩数据
Figure FDA0003833823960000028
所对应的特征数据
Figure FDA0003833823960000029
并作为填充物替换δm中的遮罩数据
Figure FDA00038338239600000210
构建患者遮罩后生成的轨迹δg,δg又作为所述表征提取单元的输入,提取相应的表征
Figure FDA00038338239600000211
所述轨迹鉴别单元以轨迹表征
Figure FDA00038338239600000212
作为输入,输出对应的轨迹表征的鉴别结果
Figure FDA00038338239600000213
Figure FDA00038338239600000214
之后所述对比学习单元以轨迹表征
Figure FDA00038338239600000215
以及轨迹表征的鉴别结果
Figure FDA00038338239600000216
作为输入,通过学习患者自身特征之间的关系来增强所述表征提取单元,最后将
Figure FDA00038338239600000217
输入所述生存分析预测单元来展开预测工作,并对其进行训练;
将所述数据集D的测试集输入所述表征提取单元,生成患者初始轨迹特征表示
Figure FDA00038338239600000218
并输入所述生存分析预测单元,对其进行验证;
将所述数据集D的训练集输入所述数据增强单元与所述表征提取单元,生成所述轨迹表征
Figure FDA00038338239600000219
并输入所述轨迹生成单元、所述轨迹鉴别单元、所述对比学习单元和所述生存分析预测单元,对其进行训练的具体方法为:
选择绝对误差函数作为所述轨迹生成单元的重建损失函数,
Figure FDA0003833823960000031
其中
Figure FDA0003833823960000032
为所述轨迹生成单元的损失函数,
Figure FDA0003833823960000033
为数学期望函数,
选择交叉熵函数作为所述轨迹鉴别单元的损失函数,
Figure FDA0003833823960000034
其中,
Figure FDA0003833823960000035
为所述轨迹鉴别单元的损失函数,
Figure FDA0003833823960000036
分别为所述表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,
Figure FDA0003833823960000037
表示所述轨迹鉴别单元的鉴别结果,
Figure FDA0003833823960000038
为数学期望函数;
所述基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
Figure FDA0003833823960000039
所述基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
Figure FDA00038338239600000310
所述生存分析预测单元的损失函数由两部分组成,分别为分类损失
Figure FDA00038338239600000311
和负对数似然损失
Figure FDA00038338239600000312
所属损失各自公式为:
Figure FDA00038338239600000313
Figure FDA00038338239600000314
其中,
Figure FDA00038338239600000315
为所述生存分析预测单元的分类损失,
Figure FDA00038338239600000316
为所述生存分析预测单元的负对数似然损失,
Figure FDA00038338239600000317
代表第k次入院时第i位患者在
Figure FDA00038338239600000318
时的存活情况,
Figure FDA00038338239600000319
代表临床目标生存情况预测结果;
所述轨迹生成单元、所述轨迹鉴别单元和所述生存分析预测单元的总损失函数
Figure FDA00038338239600000320
为:
Figure FDA00038338239600000321
其中,λ1,λ2,λ3,λ4为超参数;
优化所述总损失函数
Figure FDA00038338239600000322
在所述总损失函数
Figure FDA00038338239600000323
不再下降时,停止训练。
2.根据权利要求1所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述数据增强单元由所述患者轨迹随机打乱模块和所述患者轨迹随机遮罩模块组成,患者的真实轨迹
Figure FDA0003833823960000041
作为输入,所述患者轨迹随机打乱模块输出被打乱后的患者轨迹:
Figure FDA0003833823960000042
所述患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
Figure FDA0003833823960000043
其中,
Figure FDA0003833823960000044
Figure FDA0003833823960000045
为具有相同维度的全零向量。
3.根据权利要求2所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述表征提取单元由一个第一患者特征编码器组成,所述第一患者特征编码器的结构为长短期记忆神经网络,用来提取时序形式的轨迹数据表征的计算公式如下:
Figure FDA0003833823960000046
Figure FDA0003833823960000047
Figure FDA0003833823960000048
其中,
Figure FDA0003833823960000049
表示第i位患者第k次入院的患者特征,
Figure FDA00038338239600000410
表示第i位患者第k次入院的经过遮罩处理后的患者特征,
Figure FDA00038338239600000411
表示第i位患者第k次入院经过打乱处理后的患者特征,
Figure FDA00038338239600000412
表示全零向量,
Figure FDA00038338239600000413
分别为所述表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征;
所述表征提取单元计算所得的患者最后一次入院的表征
Figure FDA00038338239600000414
和所述患者特征
Figure FDA00038338239600000415
最终组合成所述患者轨迹的特征表示
Figure FDA00038338239600000416
作为所述表征提取单元的输出,其中,
Figure FDA00038338239600000417
Figure FDA00038338239600000418
分别为所述表征提取单元输出的患者初始轨迹表征、患者轨迹遮罩表征以及患者轨迹打乱表征。
4.根据权利要求3所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述轨迹生成单元由一个第二患者特征解码器组成,所述第二患者特征解码器包括一个时间长短期记忆神经网络和一个第一多层感知器,所述第一多层感知器的结构设定为三层,所述轨迹生成单元基于所述表征提取单元的输出的患者轨迹遮罩表征
Figure FDA00038338239600000419
生成遮罩数据
Figure FDA00038338239600000420
所对应的特征数据
Figure FDA0003833823960000051
其计算公式如下:
Figure FDA0003833823960000052
Figure FDA0003833823960000053
Figure FDA0003833823960000054
其中,
Figure FDA0003833823960000055
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure FDA0003833823960000056
表示全零向量,
Figure FDA0003833823960000057
表示所述解码器解码出来的第i位患者第k次入院时的患者表征,
Figure FDA0003833823960000058
表示所述解码器生成的第i位患者第k次入院时的患者特征。
5.根据权利要求4所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
Figure FDA0003833823960000059
其中,h表示输入层,Wd1,Wd2分别为所述第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为所述第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示所述第一Sigmoid输出层的第一层网络的输出,
Figure FDA00038338239600000510
表示所述轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
6.根据权利要求1所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
通过Adam算法优化所述总损失函数
Figure FDA00038338239600000511
CN202110692395.6A 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备 Active CN113314218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692395.6A CN113314218B (zh) 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692395.6A CN113314218B (zh) 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备

Publications (2)

Publication Number Publication Date
CN113314218A CN113314218A (zh) 2021-08-27
CN113314218B true CN113314218B (zh) 2022-12-23

Family

ID=77379913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692395.6A Active CN113314218B (zh) 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备

Country Status (1)

Country Link
CN (1) CN113314218B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410777B2 (en) * 2012-11-02 2022-08-09 The University Of Chicago Patient risk evaluation
AU2018298137A1 (en) * 2017-07-05 2020-01-23 The Regents Of The University Of California Assay for pre-operative prediction of organ function recovery
US11147459B2 (en) * 2018-01-05 2021-10-19 CareBand Inc. Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health
CN111640510A (zh) * 2020-04-09 2020-09-08 之江实验室 一种基于深度半监督多任务学习生存分析的疾病预后预测系统
CN112507612B (zh) * 2020-11-30 2022-08-02 上海交通大学 一种预测机器损坏时间的生存分析方法

Also Published As

Publication number Publication date
CN113314218A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
Al Banna et al. Attention-based bi-directional long-short term memory network for earthquake prediction
Wu et al. Beyond sparsity: Tree regularization of deep models for interpretability
Khalilov et al. Advantages and Applications of Neural Networks
Sridhar et al. Brain tumor classification using discrete cosine transform and probabilistic neural network
Caruana et al. Using the future to" sort out" the present: Rankprop and multitask learning for medical risk evaluation
US20210076977A1 (en) A method for analysis of cough sounds using disease signatures to diagnose respiratory diseases
Das et al. Conditional synthetic data generation for robust machine learning applications with limited pandemic data
CN111248913A (zh) 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质
CN113889262B (zh) 基于模型的数据预测方法、装置、计算机设备和存储介质
Stoean et al. Ensemble of classifiers for length of stay prediction in colorectal cancer
Alhassan et al. Stacked denoising autoencoders for mortality risk prediction using imbalanced clinical data
Spyroglou et al. A bayesian logistic regression approach in asthma persistence prediction
Kuo et al. Using stacked denoising autoencoder for the student dropout prediction
US6401082B1 (en) Autoassociative-heteroassociative neural network
Van Aken et al. This patient looks like that patient: Prototypical networks for interpretable diagnosis prediction from clinical text
Zhan et al. Reliably filter drug-induced liver injury literature with Natural Language processing and conformal prediction
Sherly An ensemble basedheart disease predictionusing gradient boosting decision tree
CN116403728B (zh) 医疗就诊数据的数据处理装置和相关设备
CN113314218B (zh) 基于对比的包含竞争风险的动态生存分析设备
Cui et al. Identifying key features in student grade prediction
Zhao et al. DCACorrCapsNet: A deep channel‐attention correlative capsule network for COVID‐19 detection based on multi‐source medical images
Darwin et al. Comparison of Decision Tree and Linear Regression Algorithms in the Case of Spread Prediction of COVID-19 in Indonesia
Jia et al. Using deep neural network approximate Bayesian network
CN115565669A (zh) 一种基于gan和多任务学习的癌症生存分析方法
CN111402953B (zh) 基于层次注意力网络的蛋白质序列分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant