CN113314218A - 基于对比的包含竞争风险的动态生存分析设备 - Google Patents

基于对比的包含竞争风险的动态生存分析设备 Download PDF

Info

Publication number
CN113314218A
CN113314218A CN202110692395.6A CN202110692395A CN113314218A CN 113314218 A CN113314218 A CN 113314218A CN 202110692395 A CN202110692395 A CN 202110692395A CN 113314218 A CN113314218 A CN 113314218A
Authority
CN
China
Prior art keywords
patient
trajectory
unit
representation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110692395.6A
Other languages
English (en)
Other versions
CN113314218B (zh
Inventor
黄正行
洪草根
陈晋飙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110692395.6A priority Critical patent/CN113314218B/zh
Publication of CN113314218A publication Critical patent/CN113314218A/zh
Application granted granted Critical
Publication of CN113314218B publication Critical patent/CN113314218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于对比的包含竞争风险的动态生存分析设备,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;数据增强单元包括患者轨迹随机打乱模块和患者轨迹随机遮罩模块;对比学习单元包括基于患者真实轨迹表征与随机打乱轨迹表征的对比模块和基于患者真实轨迹表征与轨迹生成后表征的对比模块;表征提取单元提取患者纵向轨迹数据的表征输入生存分析预测单元得到所预测的临床目标的存活结果。本发明的基于对比的包含竞争风险的动态生存分析设备利用了患者纵向的轨迹数据,减小存在多种竞争风险时对生存预测的影响,引入对比学习来更好的提取患者轨迹数据中的一般性信息。

Description

基于对比的包含竞争风险的动态生存分析设备
技术领域
本发明涉及一种基于对比的包含竞争风险的动态生存分析设备。
背景技术
生存分析指的是一系列用来探究目标事件的发生的时间的统计方法,有助于我们了解关注事件(例如死亡,某种疾病的发作等)的首次发病时间的分布与协变量之间的关系,并使我们能够针对此类事件展开相应的风险评估。
生存分析一直是被认为是研究预后治疗干预影响的有效工具。临床医生经常使用生存分析来做出筛查决策或开出治疗方案,而患者则根据得到的风险相关信息来调整其生活方式以减轻此类风险。
然而,现有生存分析模型主要存在以下两点局限性:
(1)大部分生存分析模型仅利用了生物标志物和其他风险因素的纵向时序数据的一小部分。特别是,即使生物标志物和其他危险因素会随时间重复测量,生存分析通常还是基于最后一次可用的测量。而生物标志物和危险因素的演变能够显示出在预测疾病和各种风险发作方面的信息,因此这是一个严重的局限。
(2)大部分生存分析模型在处理多种竞争风险的能力上受到限制,未充分考虑与利用不同因素与目标事件的相关性。
发明内容
本发明提供了一种基于对比的包含竞争风险的动态生存分析设备,采用如下的技术方案:
一种基于对比的包含竞争风险的动态生存分析设备,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;
数据输入单元用于向数据增强单元和表征提取单元输入训练数据对其进行训练,训练数据所在数据集
Figure BDA0003126640390000011
其中
Figure BDA0003126640390000012
代表患者多次入院所记录的轨迹信息,
Figure BDA0003126640390000013
代表第k次入院时第i位患者的特征,
Figure BDA0003126640390000014
代表观察第k次入院时第i位患者存活情况的时间窗口,
Figure BDA0003126640390000015
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure BDA0003126640390000016
代表第k次入院时第i位患者在
Figure BDA0003126640390000017
时的存活情况;
数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序;
患者轨迹随机遮罩模块,用于随机对患者轨迹数据中第k次入院的特征数据xk进行遮罩,由相同维度的全零向量
Figure BDA0003126640390000018
替换xk
表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征;
轨迹生成单元主要基于的随机遮罩后的患者轨迹的表征,生成遮罩数据
Figure BDA0003126640390000021
所对应的特征数据
Figure BDA0003126640390000022
并用
Figure BDA0003126640390000023
与真实的轨迹数据xk拟合;
轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹;
对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力;
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力;
生存分析预测单元用于对表征提取单元输出的患者真实轨迹表征进行拟合,得到患者生存情况的预测结果。
进一步地,数据增强单元由患者轨迹随机打乱模块和患者轨迹随机遮罩模块组成,患者的真实轨迹
Figure BDA0003126640390000024
作为输入,患者轨迹随机打乱模块输出被打乱后的患者轨迹:
Figure BDA0003126640390000025
患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
Figure BDA0003126640390000026
其中,
Figure BDA0003126640390000027
Figure BDA0003126640390000028
为具有相同维度的全零向量。
进一步地,表征提取单元由一个第一患者特征编码器组成,第一患者特征编码器的结构为长短期记忆神经网络,用来提取时序形式的轨迹数据表征的计算公式如下:
Figure BDA0003126640390000029
Figure BDA00031266403900000210
Figure BDA00031266403900000211
其中,
Figure BDA00031266403900000212
表示第i位患者第k次入院的患者特征,
Figure BDA00031266403900000213
表示第i位患者第k次入院的经过遮罩处理后的患者特征,
Figure BDA00031266403900000214
表示第i位患者第k次入院经过打乱处理后的患者特征,
Figure BDA00031266403900000215
表示全零向量,
Figure BDA0003126640390000031
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征;
表征提取单元计算所得的患者最后一次入院的表征
Figure BDA0003126640390000032
和患者特征
Figure BDA0003126640390000033
最终组合成患者轨迹的特征表示
Figure BDA0003126640390000034
作为表征提取单元的输出,其中,
Figure BDA0003126640390000035
分别为表征提取单元输出的患者初始轨迹表征、患者轨迹遮罩表征以及患者轨迹打乱表征。
进一步地,轨迹生成单元由一个第二患者特征解码器组成,第二患者特征解码器包括一个时间长短期记忆神经网络和一个第一多层感知器,第一多层感知机的结构设定为三层,轨迹生成单元基于表征提取单元的输出的患者轨迹遮罩表征
Figure BDA0003126640390000036
生成遮罩数据
Figure BDA0003126640390000037
所对应的特征数据
Figure BDA0003126640390000038
其计算公式如下:
Figure BDA0003126640390000039
Figure BDA00031266403900000310
Figure BDA00031266403900000311
其中,
Figure BDA00031266403900000312
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure BDA00031266403900000313
表示全零向量,
Figure BDA00031266403900000314
表示解码器解码出来的第i位患者第k次入院时的患者表征,
Figure BDA00031266403900000315
表示解码器生成的第i位患者第k次入院时的患者特征。
进一步地,轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
Figure BDA00031266403900000316
其中,h表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,
Figure BDA00031266403900000317
表示轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
进一步地,生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
Figure BDA00031266403900000318
Figure BDA00031266403900000319
Figure BDA0003126640390000041
其中,
Figure BDA0003126640390000042
表示输入层,e代表数据集D中患者的死因数目,Wt1为第二Sigmoid输出层的第一层网络的权重矩阵,bt1为第二Sigmoid输出层的第一层网络的偏置,
Figure BDA0003126640390000043
表示生存分析预测单元的对患者关于第e个死因的生存分析的预测结果。
进一步地,数据输入单元向数据增强单元输入训练数据对其进行训练的具体方法为:
将数据集D按照一定比例划分为训练集和测试集;
将数据集D的训练集输入数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入表征提取单元,提取各自的轨迹表征
Figure BDA0003126640390000044
Figure BDA0003126640390000045
将患者轨迹遮罩表征
Figure BDA0003126640390000046
输入轨迹生成单元,生成遮罩数据
Figure BDA0003126640390000047
所对应的特征数据
Figure BDA0003126640390000048
并作为填充物替换δm中的遮罩数据
Figure BDA0003126640390000049
构建患者遮罩后生成的轨迹δg,δg又作为表征提取单元的输入,提取相应的表征
Figure BDA00031266403900000410
轨迹鉴别单元以轨迹表征
Figure BDA00031266403900000411
作为输入,输出对应的轨迹表征的鉴别结果
Figure BDA00031266403900000412
之后对比学习单元以轨迹表征
Figure BDA00031266403900000413
以及轨迹表征的鉴别结果
Figure BDA00031266403900000414
Figure BDA00031266403900000415
作为输入,通过学习患者自身特征之间的关系来增强表征提取单元,最后将
Figure BDA00031266403900000416
输入生存分析预测单元来展开预测工作,并对其进行训练;
将数据集D的测试集输入表征提取单元,生成患者初始轨迹特征表示
Figure BDA00031266403900000417
并输入生存分析预测单元,对其进行验证。
进一步地,将数据集D的训练集输入数据增强单元与表征提取单元,生成轨迹表征
Figure BDA00031266403900000418
并输入轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元,对其进行训练的具体方法为:
选择绝对误差函数作为轨迹生成单元的重建损失函数,
Figure BDA00031266403900000419
其中
Figure BDA00031266403900000420
为知识表征模块的损失函数,
Figure BDA00031266403900000421
为数学期望函数,
选择交叉熵函数作为轨迹鉴别单元的损失函数,
Figure BDA00031266403900000422
其中,
Figure BDA00031266403900000423
为轨迹鉴别单元的损失函数,
Figure BDA00031266403900000424
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,
Figure BDA0003126640390000051
表示轨迹鉴别单元的鉴别结果,
Figure BDA0003126640390000052
为数学期望函数;
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
Figure BDA0003126640390000053
基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
Figure BDA0003126640390000054
生存分析预测单元的损失函数由两部分组成,分别为分类损失
Figure BDA0003126640390000055
和负对数似然损失
Figure BDA0003126640390000056
所属损失各自公式为:
Figure BDA0003126640390000057
Figure BDA0003126640390000058
其中,
Figure BDA0003126640390000059
为生存分析预测单元的分类损失,
Figure BDA00031266403900000510
为生存分析预测单元的负对数似然损失,
Figure BDA00031266403900000511
代表第k次入院时第i位患者在
Figure BDA00031266403900000512
时的存活情况,
Figure BDA00031266403900000513
代表临床目标生存情况预测结果;
知轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元的总损失函数
Figure BDA00031266403900000514
为:
Figure BDA00031266403900000515
其中,λ1,λ2,λ3,λ4为超参数;
优化总损失函数
Figure BDA00031266403900000516
在总损失函数
Figure BDA00031266403900000517
不再下降时,停止训练。
进一步地,通过Adam算法优化优化总损失函数
Figure BDA00031266403900000518
本发明的有益之处在于所提供的基于对比的包含竞争风险的动态生存分析设备,充分利用了患者纵向的轨迹数据,能够减小存在多种竞争风险时对生存预测的影响,同时引入对比学习来更好的提取患者轨迹数据中的一般性信息,从而提高在不同临床环境下的应用性能,有助于更好的开展相应的临床研究,帮助患者得到更好的治疗和护理。
附图说明
图1是本发明的基于对比的包含竞争风险的动态生存分析设备的的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于对比的包含竞争风险的动态生存分析设备(AContrastive learning model for Dynamic Survival Analysis with CompetingRisks,CDC-Surv),包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元。
数据输入单元用于向数据增强单元和表征提取单元输入训练数据对其进行训练,训练数据所在数据集
Figure BDA0003126640390000061
其中
Figure BDA0003126640390000062
代表患者多次入院所记录的轨迹信息,
Figure BDA0003126640390000063
代表第k次入院时第i位患者的特征,
Figure BDA0003126640390000064
代表观察第k次入院时第i位患者存活情况的时间窗口,
Figure BDA0003126640390000065
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure BDA0003126640390000066
代表第k次入院时第i位患者在
Figure BDA0003126640390000067
时的存活情况,其中,0代表存活,1,…e代表死因1到死因e。
数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序。
患者轨迹随机遮罩模块,用于随机对患者轨迹数据中第k次入院的特征数据xk进行遮罩,由相同维度的全零向量
Figure BDA0003126640390000068
替换xk
表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征。
轨迹生成单元主要基于的随机遮罩后的患者轨迹的表征,生成遮罩数据
Figure BDA0003126640390000069
所对应的特征数据
Figure BDA00031266403900000610
并用
Figure BDA00031266403900000611
与真实的轨迹数据xk拟合。
轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹。
对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力。
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力。
生存分析预测单元用于对表征提取单元输出的患者真实轨迹表征进行拟合,得到患者生存情况的预测结果。
具体而言,数据增强单元由患者轨迹随机打乱模块和患者轨迹随机遮罩模块组成,患者的真实轨迹
Figure BDA0003126640390000071
作为输入,患者轨迹随机打乱模块输出被打乱后的患者轨迹:
Figure BDA0003126640390000072
患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
Figure BDA0003126640390000073
其中,
Figure BDA0003126640390000074
Figure BDA0003126640390000075
为具有相同维度的全零向量。
进一步地,表征提取单元由一个第一患者特征编码器组成,第一患者特征编码器的结构为长短期记忆神经网络(Long Short-Term Memory,LSTM),用来提取时序形式的轨迹数据表征的计算公式如下:
Figure BDA0003126640390000076
Figure BDA0003126640390000077
Figure BDA0003126640390000078
其中,
Figure BDA0003126640390000079
表示第i位患者第k次入院的患者特征,
Figure BDA00031266403900000710
表示第i位患者第k次入院的经过遮罩处理后的患者特征,
Figure BDA00031266403900000711
表示第i位患者第k次入院经过打乱处理后的患者特征,
Figure BDA00031266403900000712
表示全零向量,
Figure BDA00031266403900000713
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征。
表征提取单元计算所得的患者最后一次入院的表征
Figure BDA00031266403900000714
和患者特征
Figure BDA00031266403900000715
最终组合成患者轨迹的特征表示
Figure BDA00031266403900000716
作为表征提取单元的输出,其中,
Figure BDA00031266403900000717
分别为表征提取单元输出的患者初始轨迹表征、患者轨迹遮罩表征以及患者轨迹打乱表征。
作为一种优选的实施方式,轨迹生成单元由一个第二患者特征解码器组成,第二患者特征解码器包括一个时间长短期记忆神经网络(Timed Long Short-Term Memory,Time-LSTM)和一个第一多层感知器(Multilayer Perceptron,MLP),第一多层感知机的结构设定为三层,轨迹生成单元基于表征提取单元的输出的患者轨迹遮罩表征
Figure BDA00031266403900000718
生成遮罩数据
Figure BDA00031266403900000719
所对应的特征数据
Figure BDA00031266403900000720
其计算公式如下:
Figure BDA00031266403900000721
Figure BDA0003126640390000081
Figure BDA0003126640390000082
其中,
Figure BDA0003126640390000083
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure BDA0003126640390000084
表示全零向量,
Figure BDA0003126640390000085
表示解码器解码出来的第i位患者第k次入院时的患者表征,
Figure BDA0003126640390000086
表示解码器生成的第i位患者第k次入院时的患者特征。
作为一种优选的实施方式,轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
Figure BDA0003126640390000087
其中,h表示输入层,Wd1,Wd2分别为第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示第一Sigmoid输出层的第一层网络的输出,
Figure BDA0003126640390000088
表示轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
作为一种优选的实施方式,生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
Figure BDA0003126640390000089
Figure BDA00031266403900000810
Figure BDA00031266403900000811
其中,
Figure BDA00031266403900000812
表示输入层,e代表数据集D中患者的死因数目,Wt1为第二Sigmoid输出层的第一层网络的权重矩阵,bt1为第二Sigmoid输出层的第一层网络的偏置,
Figure BDA00031266403900000813
表示生存分析预测单元的对患者关于第e个死因的生存分析的预测结果。
作为一种优选的实施方式,数据输入单元向数据增强单元输入训练数据对其进行训练的具体方法为:
将数据集D按照一定比例划分为训练集和测试集。
将数据集D的训练集输入数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入表征提取单元,提取各自的轨迹表征
Figure BDA00031266403900000814
Figure BDA0003126640390000091
将患者轨迹遮罩表征
Figure BDA0003126640390000092
输入轨迹生成单元,生成遮罩数据
Figure BDA0003126640390000093
所对应的特征数据
Figure BDA0003126640390000094
并作为填充物替换δm中的遮罩数据
Figure BDA0003126640390000095
构建患者遮罩后生成的轨迹δg,δg又作为表征提取单元的输入,提取相应的表征
Figure BDA0003126640390000096
轨迹鉴别单元以轨迹表征
Figure BDA0003126640390000097
作为输入,输出对应的轨迹表征的鉴别结果
Figure BDA0003126640390000098
之后对比学习单元以轨迹表征
Figure BDA0003126640390000099
以及轨迹表征的鉴别结果
Figure BDA00031266403900000910
Figure BDA00031266403900000911
作为输入,通过学习患者自身特征之间的关系来增强表征提取单元,最后将
Figure BDA00031266403900000912
输入生存分析预测单元来展开预测工作,并对其进行训练。
将数据集D的测试集输入表征提取单元,生成患者初始轨迹特征表示
Figure BDA00031266403900000913
并输入生存分析预测单元,对其进行验证。
作为一种优选的实施方式,将数据集D的训练集输入数据增强单元与表征提取单元,生成轨迹表征
Figure BDA00031266403900000914
并输入轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元,对其进行训练的具体方法为:
选择绝对误差函数作为轨迹生成单元的重建损失函数,
Figure BDA00031266403900000915
其中
Figure BDA00031266403900000916
为知识表征模块的损失函数,
Figure BDA00031266403900000917
为数学期望函数,
选择交叉熵函数作为轨迹鉴别单元的损失函数,
Figure BDA00031266403900000918
其中,
Figure BDA00031266403900000919
为轨迹鉴别单元的损失函数,
Figure BDA00031266403900000920
分别为表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,
Figure BDA00031266403900000921
表示轨迹鉴别单元的鉴别结果,
Figure BDA00031266403900000922
为数学期望函数。
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
Figure BDA00031266403900000923
基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
Figure BDA00031266403900000924
生存分析预测单元的损失函数由两部分组成,分别为分类损失
Figure BDA0003126640390000101
和负对数似然损失
Figure BDA0003126640390000102
所属损失各自公式为:
Figure BDA0003126640390000103
Figure BDA0003126640390000104
其中,
Figure BDA0003126640390000105
为生存分析预测单元的分类损失,
Figure BDA0003126640390000106
为生存分析预测单元的负对数似然损失,
Figure BDA0003126640390000107
代表第k次入院时第i位患者在
Figure BDA0003126640390000108
时的存活情况,
Figure BDA0003126640390000109
代表临床目标生存情况预测结果。
知轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元的总损失函数
Figure BDA00031266403900001010
为:
Figure BDA00031266403900001011
其中,λ1,λ2,λ3,λ4为超参数。
优化总损失函数
Figure BDA00031266403900001012
在总损失函数
Figure BDA00031266403900001013
不再下降时,停止训练。
作为一种优选的实施方式,通过Adam算法优化优化总损失函数
Figure BDA00031266403900001014
应用时,首先将初始轨迹数据δ输入所述数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm。δsm与初始患者轨迹数据δ一起输入表征提取单元,得到各自的轨迹表征
Figure BDA00031266403900001015
之后患者轨迹遮罩表征
Figure BDA00031266403900001016
输入轨迹生成单元,生成遮罩数据
Figure BDA00031266403900001017
所对应的特征数据
Figure BDA00031266403900001018
并作为填充物替换δm中的遮罩数据
Figure BDA00031266403900001019
构建患者遮罩后生成的轨迹δg。δg又作为表征提取单元的输入,提取相应的表征
Figure BDA00031266403900001020
并以轨迹表征
Figure BDA00031266403900001021
作为轨迹鉴别单元的输入,输出对应的轨迹表征的鉴别结果
Figure BDA00031266403900001022
最后对比学习单元以获得的轨迹表征
Figure BDA00031266403900001023
以及轨迹表征的鉴别结果
Figure BDA00031266403900001024
Figure BDA00031266403900001025
作为输入,通过学习患者轨迹特征之间的一般性关系来增强表征提取单元提取纵向数据表征的能力。同时生存分析预测单元以
Figure BDA00031266403900001026
为输入所述来展开不同死因下患者的生存预测。
当完成模型训练后,将目标数据集的患者样本纵向数据输入到训练好的表征提取单元中,模型单元能够根据患者的特征来输出特定死因下生存情况的预测结果。
为了更好地比较本发明所提出的基于对比的包含竞争风险的动态生存分析设备的优越性,以对于同时患有败血症、脑出血、急性呼吸衰竭、心内膜下急性心肌梗塞和肺炎这五种疾病中两种及以上的患者在不同死因下的生存情况预测为例,基于国外免费公开的重症监护临床数据集MIMIC III,本发明的设备与现有的Cox比例风险模型(CoxProportional Hazards Model,CPH),基于神经网络的Cox比例风险模型(Deep CoxProportional Hazards Network,DeepSurv),特定归因下的Cox比例风险模型(the Cause-specific Version of the Cox Proportional Hazards Model,cs-Cox)与Fine-Gray比例子分布风险模型(Fine-Gray Proportional Sub-distribution hazards Model,Fine-Gray)在MIMIC III数据集上的预测性能进行了对比。
实验结果用一致性指数(Concordance Index,C-index)来作为评估指标,五种设备的对比结果如表1所示,可见,本发明的设备的预测性能的优势非常显著。
表1本发明的设备与对比设备在五种死因下患者生存预测任务上的表现
Figure BDA0003126640390000111
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (9)

1.一种基于对比的包含竞争风险的动态生存分析设备,其特征在于,包括:数据输入单元、数据增强单元、表征提取单元、轨迹生成单元、轨迹鉴别单元、对比学习单元和生存分析预测单元;
所述数据输入单元用于向所述数据增强单元和表征提取单元输入训练数据对其进行训练,所述训练数据所在数据集
Figure FDA0003126640380000011
其中
Figure FDA0003126640380000012
代表患者多次入院所记录的轨迹信息,
Figure FDA0003126640380000013
代表第k次入院时第i位患者的特征,
Figure FDA0003126640380000014
代表观察第k次入院时第i位患者存活情况的时间窗口,
Figure FDA0003126640380000015
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure FDA0003126640380000016
代表第k次入院时第i位患者在
Figure FDA0003126640380000017
时的存活情况;
所述数据增强单元包括:
患者轨迹随机打乱模块,用于随机打乱患者的轨迹顺序;
患者轨迹随机遮罩模块,用于随机对患者轨迹数据中第k次入院的特征数据xk进行遮罩,由相同维度的全零向量
Figure FDA0003126640380000018
替换xk
所述表征提取单元主要用于分别提取患者真实轨迹、随机打乱后的患者轨迹与随机遮罩后的患者轨迹的表征;
所述轨迹生成单元主要基于所述的随机遮罩后的患者轨迹的表征,生成遮罩数据
Figure FDA0003126640380000019
所对应的特征数据
Figure FDA00031266403800000110
并用
Figure FDA00031266403800000111
与真实的轨迹数据xk拟合;
所述轨迹鉴别单元主要用来鉴别表征提取单元所提取的轨迹表征是否来自于患者的真实轨迹;
所述对比学习单元包括:
基于患者真实轨迹表征与随机打乱轨迹表征的对比模块,通过提高患者真实轨迹表征与自身随机打乱轨迹表征的相似度,降低自身真实轨迹表征与其他患者随机打乱轨迹表征的相似度,来加强表征提取单元的表征提取能力;
基于患者真实轨迹表征与轨迹生成后表征的对比模块,通过提高患者真实轨迹表征与自身轨迹生成后表征的相似度,降低自身真实轨迹表征与其他患者轨迹生成后表征的相似度,来加强表征提取单元的表征提取能力;
所述生存分析预测单元用于对表征提取单元输出的所述患者真实轨迹表征进行拟合,得到患者生存情况的预测结果。
2.根据权利要求1所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述数据增强单元由所述患者轨迹随机打乱模块和所述患者轨迹随机遮罩模块组成,患者的真实轨迹
Figure FDA0003126640380000021
作为输入,所述患者轨迹随机打乱模块输出被打乱后的患者轨迹:
Figure FDA0003126640380000022
所述患者轨迹随机遮罩模块输出被遮罩后的患者轨迹:
Figure FDA0003126640380000023
其中,
Figure FDA0003126640380000024
Figure FDA0003126640380000025
为具有相同维度的全零向量。
3.根据权利要求2所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述表征提取单元由一个第一患者特征编码器组成,所述第一患者特征编码器的结构为长短期记忆神经网络,用来提取时序形式的轨迹数据表征的计算公式如下:
Figure FDA0003126640380000026
Figure FDA0003126640380000027
Figure FDA0003126640380000028
其中,
Figure FDA0003126640380000029
表示第i位患者第k次入院的患者特征,
Figure FDA00031266403800000210
表示第i位患者第k次入院的经过遮罩处理后的患者特征,
Figure FDA00031266403800000211
表示第i位患者第k次入院经过打乱处理后的患者特征,
Figure FDA00031266403800000212
表示全零向量,
Figure FDA00031266403800000213
分别为所述表征提取单元提取出来的第i位患者第k次入院时的初始患者表征、经过遮罩处理后的患者表征以及经过打乱处理后的患者表征;
所述表征提取单元计算所得的患者最后一次入院的表征
Figure FDA00031266403800000214
和所述患者特征
Figure FDA00031266403800000215
最终组合成所述患者轨迹的特征表示
Figure FDA00031266403800000216
作为所述表征提取单元的输出,其中,
Figure FDA00031266403800000217
Figure FDA00031266403800000218
分别为所述表征提取单元输出的患者初始轨迹表征、患者轨迹遮罩表征以及患者轨迹打乱表征。
4.根据权利要求3所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述轨迹生成单元由一个第二患者特征解码器组成,所述第二患者特征解码器包括一个时间长短期记忆神经网络和一个第一多层感知器,所述第一多层感知机的结构设定为三层,所述轨迹生成单元基于所述表征提取单元的输出的患者轨迹遮罩表征
Figure FDA00031266403800000219
生成遮罩数据
Figure FDA00031266403800000220
所对应的特征数据
Figure FDA00031266403800000221
其计算公式如下:
Figure FDA00031266403800000222
Figure FDA0003126640380000031
Figure FDA0003126640380000032
其中,
Figure FDA0003126640380000033
代表观察第i位患者第k次入院时距离第1次入院的相对时间,
Figure FDA0003126640380000034
表示全零向量,
Figure FDA0003126640380000035
表示所述解码器解码出来的第i位患者第k次入院时的患者表征,
Figure FDA0003126640380000036
表示所述解码器生成的第i位患者第k次入院时的患者特征。
5.根据权利要求4所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述轨迹鉴别单元由一个第一Sigmoid输出层组成,通过以下公式进行计算:
hd1=relu(Wd1h+bd1),
Figure FDA00031266403800000312
其中,h表示输入层,Wd1,Wd2分别为所述第一Sigmoid输出层的第一和第二层网络的权重矩阵,bd1,bd2分别为所述第一Sigmoid输出层的第一和第二层网络的偏置,hd1表示所述第一Sigmoid输出层的第一层网络的输出,
Figure FDA00031266403800000313
表示所述轨迹鉴别单元对所输入的轨迹表征的鉴别结果。
6.根据权利要求1所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述生存分析预测单元由e个第二多层感知器与一个第二Sigmoid输出层组成,通过以下公式进行计算:
Figure FDA0003126640380000037
Figure FDA0003126640380000038
Figure FDA0003126640380000039
其中,
Figure FDA00031266403800000310
表示输入层,e代表所述数据集D中患者的死因数目,Wt1为所述第二Sigmoid输出层的第一层网络的权重矩阵,bt1为所述第二Sigmoid输出层的第一层网络的偏置,
Figure FDA00031266403800000311
表示所述生存分析预测单元的对患者关于第e个死因的生存分析的预测结果。
7.根据权利要求6所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
所述数据输入单元向所述数据增强单元输入训练数据对其进行训练的具体方法为:
将所述数据集D按照一定比例划分为训练集和测试集;
将所述数据集D的训练集输入所述数据增强单元,生成随机打乱后的患者轨迹δs与随机遮罩后的患者轨迹δm,并与初始患者轨迹数据δ一起输入所述表征提取单元,提取各自的轨迹表征
Figure FDA0003126640380000041
将患者轨迹遮罩表征
Figure FDA0003126640380000042
输入所述轨迹生成单元,生成遮罩数据
Figure FDA0003126640380000043
所对应的特征数据
Figure FDA0003126640380000044
并作为填充物替换δm中的遮罩数据
Figure FDA0003126640380000045
构建患者遮罩后生成的轨迹δg,δg又作为所述表征提取单元的输入,提取相应的表征
Figure FDA0003126640380000046
所述轨迹鉴别单元以轨迹表征
Figure FDA0003126640380000047
作为输入,输出对应的轨迹表征的鉴别结果
Figure FDA0003126640380000048
Figure FDA0003126640380000049
之后所述对比学习单元以轨迹表征
Figure FDA00031266403800000410
以及轨迹表征的鉴别结果
Figure FDA00031266403800000411
作为输入,通过学习患者自身特征之间的关系来增强所述表征提取单元,最后将
Figure FDA00031266403800000412
输入所述生存分析预测单元来展开预测工作,并对其进行训练;
将所述数据集D的测试集输入所述表征提取单元,生成患者初始轨迹特征表示
Figure FDA00031266403800000413
并输入所述生存分析预测单元,对其进行验证。
8.根据权利要求7所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
将所述数据集D的训练集输入所述数据增强单元与所述表征提取单元,生成所述轨迹表征
Figure FDA00031266403800000414
并输入所述轨迹生成单元、所述轨迹鉴别单元、所述对比学习单元和所述生存分析预测单元,对其进行训练的具体方法为:
选择绝对误差函数作为所述轨迹生成单元的重建损失函数,
Figure FDA00031266403800000415
其中
Figure FDA00031266403800000416
为所述知识表征模块的损失函数,
Figure FDA00031266403800000422
为数学期望函数,
选择交叉熵函数作为所述轨迹鉴别单元的损失函数,
Figure FDA00031266403800000417
其中,
Figure FDA00031266403800000418
为所述轨迹鉴别单元的损失函数,
Figure FDA00031266403800000419
分别为所述表征提取单元提取出来的第i位患者第k次入院时的初始患者轨迹表征、患者生成遮罩数据后的轨迹表征以及患者轨迹随机打乱后的表征,
Figure FDA00031266403800000420
表示所述轨迹鉴别单元的鉴别结果,
Figure FDA00031266403800000421
为数学期望函数;
所述基于患者真实轨迹表征与随机打乱轨迹表征的对比模块的损失函数公式为:
Figure FDA0003126640380000051
所述基于患者真实轨迹表征与轨迹生成后表征的对比模块的损失函数公式为:
Figure FDA0003126640380000052
所述生存分析预测单元的损失函数由两部分组成,分别为分类损失
Figure FDA0003126640380000053
和负对数似然损失
Figure FDA0003126640380000054
所属损失各自公式为:
Figure FDA0003126640380000055
Figure FDA0003126640380000056
其中,
Figure FDA0003126640380000057
为所述生存分析预测单元的分类损失,
Figure FDA0003126640380000058
为所述生存分析预测单元的负对数似然损失,
Figure FDA0003126640380000059
代表第k次入院时第i位患者在
Figure FDA00031266403800000510
时的存活情况,
Figure FDA00031266403800000511
代表临床目标生存情况预测结果;
所述知所述轨迹生成单元、所述轨迹鉴别单元、所述对比学习单元和所述生存分析预测单元的总损失函数
Figure FDA00031266403800000514
为:
Figure FDA00031266403800000512
其中,λ1,λ2,λ3,λ4为超参数;
优化所述总损失函数
Figure FDA00031266403800000515
在所述总损失函数
Figure FDA00031266403800000516
不再下降时,停止训练。
9.根据权利要求8所述的基于对比的包含竞争风险的动态生存分析设备,其特征在于,
通过Adam算法优化优化所述总损失函数
Figure FDA00031266403800000513
CN202110692395.6A 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备 Active CN113314218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692395.6A CN113314218B (zh) 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692395.6A CN113314218B (zh) 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备

Publications (2)

Publication Number Publication Date
CN113314218A true CN113314218A (zh) 2021-08-27
CN113314218B CN113314218B (zh) 2022-12-23

Family

ID=77379913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692395.6A Active CN113314218B (zh) 2021-06-22 2021-06-22 基于对比的包含竞争风险的动态生存分析设备

Country Status (1)

Country Link
CN (1) CN113314218B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332012A1 (en) * 2012-11-02 2015-11-19 The University Of Chicago Patient risk evaluation
US20190209022A1 (en) * 2018-01-05 2019-07-11 CareBand Inc. Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health
CN110997941A (zh) * 2017-07-05 2020-04-10 加利福尼亚大学董事会 用于术前预测器官功能恢复的测定
CN111640510A (zh) * 2020-04-09 2020-09-08 之江实验室 一种基于深度半监督多任务学习生存分析的疾病预后预测系统
CN112507612A (zh) * 2020-11-30 2021-03-16 上海交通大学 一种预测机器损坏时间的生存分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332012A1 (en) * 2012-11-02 2015-11-19 The University Of Chicago Patient risk evaluation
CN110997941A (zh) * 2017-07-05 2020-04-10 加利福尼亚大学董事会 用于术前预测器官功能恢复的测定
US20190209022A1 (en) * 2018-01-05 2019-07-11 CareBand Inc. Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health
CN111640510A (zh) * 2020-04-09 2020-09-08 之江实验室 一种基于深度半监督多任务学习生存分析的疾病预后预测系统
CN112507612A (zh) * 2020-11-30 2021-03-16 上海交通大学 一种预测机器损坏时间的生存分析方法

Also Published As

Publication number Publication date
CN113314218B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
Xu et al. Identification framework for cracks on a steel structure surface by a restricted Boltzmann machines algorithm based on consumer‐grade camera images
Su et al. An end-to-end framework for remaining useful life prediction of rolling bearing based on feature pre-extraction mechanism and deep adaptive transformer model
Al Banna et al. Attention-based bi-directional long-short term memory network for earthquake prediction
CN110334843B (zh) 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置
Das et al. Conditional synthetic data generation for robust machine learning applications with limited pandemic data
CN107944915A (zh) 一种游戏用户行为分析方法及计算机可读存储介质
Alhassan et al. Stacked denoising autoencoders for mortality risk prediction using imbalanced clinical data
CN111248913A (zh) 基于迁移学习的慢性阻塞性肺疾病预测系统、设备及介质
CN112329974B (zh) 基于lstm-rnn的民航安保事件行为主体识别与预测方法及系统
Matsumoto et al. XCSR based on compressed input by deep neural network for high dimensional data
US6401082B1 (en) Autoassociative-heteroassociative neural network
Saffari et al. DCNN-fuzzyWOA: artificial intelligence solution for automatic detection of covid-19 using X-ray images
Chrol-Cannon et al. Learning structure of sensory inputs with synaptic plasticity leads to interference
CN117315347A (zh) 一种基于跨模态特征融合的图像分类系统
Kuo et al. Using stacked denoising autoencoder for the student dropout prediction
Zhan et al. Reliably filter drug-induced liver injury literature with Natural Language processing and conformal prediction
CN116403728B (zh) 医疗就诊数据的数据处理装置和相关设备
Orlov et al. Intelligent technologies in the diagnostics using object’s visual images
Van Aken et al. This patient looks like that patient: Prototypical networks for interpretable diagnosis prediction from clinical text
Surono et al. Developing an optimized recurrent neural network model for air quality prediction using K-means clustering and PCA dimension reduction
CN113314218B (zh) 基于对比的包含竞争风险的动态生存分析设备
Cui et al. Identifying key features in student grade prediction
He et al. CovidNet: An automatic architecture for Covid-19 detection with deep learning from chest X-ray images
Islam et al. How certain are tansformers in image classification: uncertainty analysis with Monte Carlo dropout
Darwin et al. Comparison of Decision Tree and Linear Regression Algorithms in the Case of Spread Prediction of COVID-19 in Indonesia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant