CN115547502A - 基于时序数据的血透病人风险预测装置 - Google Patents

基于时序数据的血透病人风险预测装置 Download PDF

Info

Publication number
CN115547502A
CN115547502A CN202211486609.5A CN202211486609A CN115547502A CN 115547502 A CN115547502 A CN 115547502A CN 202211486609 A CN202211486609 A CN 202211486609A CN 115547502 A CN115547502 A CN 115547502A
Authority
CN
China
Prior art keywords
clinical
gru
hemodialysis patient
diagnosis
clinical examination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211486609.5A
Other languages
English (en)
Other versions
CN115547502B (zh
Inventor
吴健
陈江华
徐红霞
钱思忆
楼晓伟
陈晋泰
姚曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211486609.5A priority Critical patent/CN115547502B/zh
Publication of CN115547502A publication Critical patent/CN115547502A/zh
Application granted granted Critical
Publication of CN115547502B publication Critical patent/CN115547502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于时序数据的血透病人风险预测装置,采用双向GRU‑D网络以端到端的方式来处理临床检查时序数据,能够同时较好地处理不均匀采样、有较多缺失值的临床数据,更好地捕捉病人临床数据的动态变化,在此基础上,以临床检查时序数据、图像诊断文字信息、病人个体特征信息这三种多模态信息作为数据源,并采用深度学习依据数据源来提取临床检查表征、诊断表征以及个体特征表征,然后结合这三个特征预测血透病人的死亡率,这样提升死亡预测的准确率和效率,为医生诊疗提供辅助,对于预测出潜在死亡的病人,医生可以及时给与干预,从而优化医疗资源的干预。

Description

基于时序数据的血透病人风险预测装置
技术领域
本发明属于智能医疗技术领域,具体涉及一种基于时序数据的血透病人风险预测装置。
背景技术
近年来,许多相关的流行病学调查研究显示全球范围的维持性透析患者人数越来越多。透析患者的期望剩余寿命远低于移植患者和普通人,而血液透析(HD,简称血透)是终末期肾病患者维持生命的主要方式。透析患者的死亡发生与许多因素有关,常见如心律失常、心脏骤停等,而且众多因素相互之间存在关联。如果能尽早预测HD患者的死亡风险,就能发现高危人群,预警患者和医生;如果能分析出其相应存在的危险因素,就能有针对性地加以干预,实现个体化治疗,并期望在一定程度上延长患者寿命。
通常对患者疾病风险的预测有经验预测法和定量预测法。前者因主要依靠人的经验和主观判断,人工成本高、效率低、准确性低,所以应用局限。而后者则是依靠统计、人工智能等方法基于大数据对疾病风险进行数学建模来实现的。并且随着医疗信息化的普及与发展,HD相关的医疗数据大量积累而其中的信息价值尚未被挖掘。因此如何利用人工智能来有效分析并利用这些数据,实现对HD患者疾病风险的准确预测成为了当下研究的热点。
以往采用各类回归方法对HD患者死亡风险进行预测,虽然曲线下面积均能达到0.7~0.8之间,但由于临床数据复杂多样,并非单纯的线性关系,因此这些线性模型的准确度还不够高,不能完全用于临床实践工作。
随着人工神经网络和人工智能相继出现,人们试图通过模拟大脑神经网络处理和储存信息的方式进行数据处理,使机器真正实现智能。随后机器学习得以引入,这种基于算法或程序的模型预测效果相当的好,其对分析的数据没有任何假定,产生的结果用交叉验证的方法来判断,摆脱了假设分布、明确数学模型来拟合、假设检验的经典统计过程。近十年,又提出了基于深度学习的深度神经网络,在图像识别方面远超先前相关技术,更多类型的数据得以分析处理。大数据时代,这样的技术已广泛应用于医疗数据处理与挖掘,包括图像识别、风险预测、高危因素提取等。
目前深度学习在肾脏病领域,如糖尿病肾病、急性肾损伤等已取得了较好的应用。Nassim Bouteldja等发表的文献《Deep Learning based segmentation andquantification in experimental kidney histopathology》中则展示了卷积神经网络在准确分类病理组织中的出色表现。但是很少有文章利用深度学习根据多模态信息预测HD患者短期死亡风险。
发明内容
鉴于上述,本发明的目的是就是提供一种基于时序数据的血透病人风险预测装置,以实现对血透病人的死亡率的预测。
为实现上述发明目的,本发明实施例提供了一种基于时序数据的血透病人风险预测装置,包括存储器、处理器以及存储在所述存储器中并在所述处理器上执行的计算机程序,存储器存储有经过训练的血透病人风险预测模型,该血透病人风险预测模型包括诊断表征提取单元、个体特征表征提取单元、双向GRU-D网络、临床检查表征提取单元以及预测单元,所述处理器执行所述计算机程序时实现以下步骤:
接收经过预处理的临床检查时序数据、图像诊断文字信息、病人个体特征信息,临床检查时序数据包括多个临床变量的时序数据;
对图像诊断文字信息分词并转换为固定长度的向量后,利用诊断表征提取单元基于固定长度的向量提取诊断表征;
将病人个体特征信息编码为初始向量后,利用个体特征表征提取单元基于初始向量提取个体特征表征;
利用包含多个GRU-D模块的双向GRU-D网络对临床检查时序数据进行插值处理并提取隐藏状态,包括:在每个时间步对应的GRU-D模块中,每个临床变量值经过注意力机制提取重要特征,并将重要特征作为GRU-D模块的输入,同时将表征临床变量值是否存在的掩码作为GRU-D模块的输入,还将临床变量值的月均值作为经验值,GRU-D模块基于输入的重要特征、掩码以及经验值结合第一衰减率进行插值处理后,再结合上一时间步GRU-D模块输出的隐藏状态和第二衰减率计算当前时间步的隐藏状态;
利用临床检查表征提取单元基于双向GRU-D网络输出的隐藏状态提取临床检查表征;
利用预测单元基于诊断表征、个体特征表征以及临床检查表征来预测血透病人的死亡率,实现血透病人风险预测。
优选地,所述临床变量包括甲状旁腺激素血红蛋白、白细胞计数、红细胞压积、红细胞计数、血小板压积、血小板计数、透析前肌酐、透析前尿素氮、透析前尿素、空腹血糖、甘油三酯、总胆固醇、高密度脂蛋白、低密度脂蛋白、透前钾、透前氯、透前钠、透前磷、透前钙、透前镁、白蛋白、谷丙转氨酶、谷草转氨酶、总胆红素、碱性磷酸酶、尿素清除指数;
所述图像诊断文字信息包括心脏彩超的诊断文本;
所述病人个体特征信息包括身高、体重、性别、初始透析年龄、血管通路类型。
优选地,对临床检查时序数据进行预处理包括:针对每个临床变量,以天为单位,并以一天内多次测量数据的平均值作为一天的临床变量值,并对临床变量值组成的时序数据进行全局归一化操作。
优选地,采用Doc2Vec无监督训练方式将图像诊断文字信息对应的分词转换为固定长度的向量。
优选地,所述将病人个体特征信息编码为初始向量,包括:统一身高、体重的度量方式,采用one-hot向量编码性别,multi-hot向量编码血管通路类型,编码后的向量与身高、体重、以及初始透析年龄拼接得到初始向量。
优选地,所述诊断表征提取单元、个体特征表征提取单元以及临床检查表征提取单元采用全连接神经网络。
优选地,所述预测单元对诊断表征、个体特征表征以及临床检查表征拼接后,采用激活函数对拼接结果进行激活计算以预测血透病人的死亡率。
优选地,所述血透病人风险预测模型被应用之前需要经过参数优化,参数优化时,采用的损失函数为Focal Loss。
为实现上述发明目的,本发明实施例还提供了一种基于时序数据的血透病人风险预测装置,包括接收模块、预测模块以及输出模块;
所述接收模块用于接收经过预处理的临床检查时序数据、图像诊断文字信息、病人个体特征信息,临床检查时序数据包括多个临床变量的时序数据;
所述预测模块用于利用经过训练的血透病人风险预测模型对接收数据进行血透病人的死亡率的预测,包括:对图像诊断文字信息分词并转换为固定长度的向量后,利用诊断表征提取单元基于固定长度的向量提取诊断表征;将病人个体特征信息编码为初始向量后,利用个体特征表征提取单元基于初始向量提取个体特征表征;利用包含多个GRU-D模块的双向GRU-D网络对临床检查时序数据进行插值处理并提取隐藏状态;利用临床检查表征提取单元基于双向GRU-D网络输出的隐藏状态提取临床检查表征;利用预测单元基于诊断表征、个体特征表征以及临床检查表征来预测血透病人的死亡率,实现血透病人风险预测;
所述输出模块用于输出血透病人的死亡率。
与现有技术相比,本发明具有的有益效果至少包括:
采用双向GRU-D网络以端到端的方式来处理临床检查时序数据,能够同时较好地处理不均匀采样、有较多缺失值的临床数据,更好地捕捉病人临床数据的动态变化,在此基础上,提取动态变化时序数据的隐藏状态以用于进一步提取临床检查表征。
以临床检查时序数据、图像诊断文字信息、病人个体特征信息这三种多模态信息作为数据源,并采用深度学习依据数据源来提取临床检查表征、诊断表征以及个体特征表征,然后结合这三个特征预测血透病人的死亡率,这样提升死亡预测的准确率和效率,为医生诊疗提供辅助,对于预测出潜在死亡的病人,医生可以及时给与干预,从而优化医疗资源的干预。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的血透病人风险预测模型的结构示意图;
图2是实施例提供的血透病人风险预测的流程图;
图3是实施例提供的血透病人风险预测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
在血液透析大数据的基础上,本发明实施例提出了一种基于时序数据的血透病人风险预测模型和装置,以最先进的人工智能技术来预测血透病人的短期死亡风险,提醒并指导临床医生针对这些病人的相关高危风险因素提前进行重点干预,实现真正的个体化治疗。
实施例提供的血透病人风险预测模型用于根据临床检查时序数据、图像诊断文字信息、病人个体特征信息来进行血透病人风险预测。其中,临床检查时序数据包括多个临床变量的时序数据。被选择的临床变量具有较大的临床意义,是预测血透病人死亡的重要指标,且采集成本较低。具体包括27个临床变量,分别为甲状旁腺激素血红蛋白、白细胞计数、红细胞压积、红细胞计数、血小板压积、血小板计数、透析前肌酐、透析前尿素氮、透析前尿素、空腹血糖、甘油三酯、总胆固醇、高密度脂蛋白、低密度脂蛋白、透前钾、透前氯、透前钠、透前磷、透前钙、透前镁、白蛋白、谷丙转氨酶、谷草转氨酶、总胆红素、碱性磷酸酶、尿素清除指数。
图像诊断文字信息包括心脏彩超的诊断文本。该诊断文本包含了重要的临床信息,因此选择作为预测血透病人风险的数据源。
病人个体特征信息包括身高、体重、性别、初始透析年龄、血管通路类型。其中,根据病人初始透析日期和身份证号计算初始透析年龄。血管通路类型是指病人做过的血管手术类型,一个病人可以做过多种血管手术。这些人个体特征信息同样包含了重要的临床信息,因此选择作为预测血透病人风险的数据源。
如图1所示,血透病人风险预测模型包括诊断表征提取单元、个体特征表征提取单元、双向GRU-D网络、临床检查表征提取单元以及预测单元。
实施例中,诊断表征提取单元可以采用包含至少1层全连接层的全连接神经网络,用于根据图像诊断文字信息对应的固定长度向量提取诊断表征。具体地,图像诊断文字信息经过分词后,再对分词进行向量转换得到固定长度的向量。一种可能实施方式,可以采用Jieba对图像诊断文字信息进行中文分词。Doc2Vec是一种常用的无监督语言模型,可以将任意长度的文字转为一个指定长度的向量,且训练成本较低,因此,可以采用Doc2Vec无监督训练方式将图像诊断文字信息对应的分词转换为固定长度的向量。
实施例中,个体特征表征提取单元可以采用包含至少1层全连接层的全连接神经网络,用于根据病人个体特征信息对应的初始向量提取个体特征表征。具体地,对病人个体特征信息进行编码得到初始向量,包括:统一身高、体重的度量方式,采用one-hot向量编码性别,multi-hot向量编码血管通路类型,编码后的向量与身高、体重、以及初始透析年龄拼接得到初始向量。
临床检查时序数据有两个常见问题:不均匀采样和数据缺失值较多的问题。包含多个GRU-D模块的GRU-D网络作为一种端到端的模型,能够同时进行缺失值填补和多变量时序数据的预测,因此实施例采用GRU-D网络来处理临床检测时序数据。在临床场景下,病人的健康状况是相对稳定的,即一个病人相邻时间内的临床变量测量值不会发生突变。因此,GRU-D模块主要根据上一时间步临床变量的测量值和变量经验值来填补数据,这里在使用变量值经验值以外,还同样加入了病人在本月的平均值,即将临床变量值的月均值作为经验值。GRU-D网络的核心是训练一个可自主学习的衰减率来对上一时间步测量的临床变量值和变量经验值进行加权。实施例还考虑了一个双向传播的GRU-D网络,除了从历史时间步传到当前时间步之外,同样考虑通过将来时间步的数据来预测当前时间步的数据。为了让模型获得更好的可解释性,对临床变量引入了注意力机制,对变量性重要性进行了排序以便医生进行后续干预。
基于此,实施例采用双向GRU-D网络来处理临床检查时序数据,即利用双向GRU-D网络对临床检查时序数据进行插值处理并提取时序数据对应的隐藏状态。在每个时间步对应的GRU-D模块中,为获得各临床变量的重要性排序,引入注意力机制,将每个时刻的每个临床变量值先经过注意力机制提取重要特征,并将该重要特征作为GRU-D模块的输入。除了输入重要特征外,还将表征临床变量值是否存在的掩码作为GRU-D模块的输入,在掩码中,若为1则代表临床变量值被观测到,否则代表临床变量值缺失,需要进行插值补充。
其中,注意力机制可以采用多层感知机来实现,通过多层感知机来捕捉输入临床变量间的关联,并将得到的注意力权值通过Softmax层在每一时间步上进行归一化操作。将时间步的注意力权重乘上临床变量值得到重要特征,该重要特征被输入至GRU-D模块。需要说明的是,注意力权重是可训练优化的,还将一个月内某临床变量的注意力权重的平均值作为临川变量的重要性,以供显式查看。
GRU-D网络采用一个可训练的第一衰减率来进行插值,具体地,插值由上一时间步的历史时序数据和经验值组成。第一衰减率代表上一次观测数据对当前的影响,并且具有以下两个特点:1)针对每个临床变量采用不同的映射函数,因为每个变量的临床意义不同。2)随着距离该临床变量上一次观察到的时间越长,第一衰减率越小,因为这代表着历史变量对当前的影响越小。除了插补特征外,GRU-D同样对隐藏状态训练一个第二衰减率,并将利用第二衰减率处理的衰减的隐藏状态输入下一时间步。GRU-D模块基于输入的重要特征、掩码以及经验值结合第一衰减率进行插值处理后,再结合上一时间步GRU-D模块输出的隐藏状态和第二衰减率计算当前时间步的隐藏状态,用公式表示为:
Figure DEST_PATH_IMAGE001
Figure 44259DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 422151DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 226159DEST_PATH_IMAGE006
其中,上标d表示临床变量的索引,下标t表示时间步的索引,
Figure DEST_PATH_IMAGE007
表示当前时间步观 测的第d个临床变量对应的重要特征,
Figure 689501DEST_PATH_IMAGE008
表示表征第d个临床变量是否存在的掩码,
Figure DEST_PATH_IMAGE009
表示 第d个临床变量对应的第一衰减率,
Figure 502736DEST_PATH_IMAGE010
表示上一时间步观测的第d个临床变量对应的重要特 征,
Figure DEST_PATH_IMAGE011
表示第d个临床变量的经验值,
Figure 735135DEST_PATH_IMAGE012
表示经过插值补充的重要特征,
Figure DEST_PATH_IMAGE013
表示t-1时间步 的隐藏状态,
Figure 241202DEST_PATH_IMAGE014
表示隐藏状态对应的第二衰减率,
Figure DEST_PATH_IMAGE015
表示经过衰减的隐藏状态,
Figure 660682DEST_PATH_IMAGE016
表示 Sigmod激活函数,
Figure DEST_PATH_IMAGE017
表示所有临床变量对应的重要特征,
Figure 277608DEST_PATH_IMAGE018
表示表征所有临床变量是否存 在的掩码,
Figure DEST_PATH_IMAGE019
Figure 597469DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
以及
Figure 274438DEST_PATH_IMAGE022
表示重置门的权重参数,
Figure DEST_PATH_IMAGE023
表示重置门的计算结果,
Figure 181214DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure 336252DEST_PATH_IMAGE026
以 及
Figure DEST_PATH_IMAGE027
表示更新门的权重参数,
Figure 543242DEST_PATH_IMAGE028
表示更新门的计算结果,
Figure 656692DEST_PATH_IMAGE029
表示双曲正切激活函数,
Figure 316343DEST_PATH_IMAGE030
Figure 540651DEST_PATH_IMAGE031
Figure 336569DEST_PATH_IMAGE032
以及
Figure 355341DEST_PATH_IMAGE033
表示选择性遗忘的参数,
Figure 767867DEST_PATH_IMAGE034
表示选择性遗忘计算的隐藏状态,
Figure 530287DEST_PATH_IMAGE035
表示t时间步的隐 藏状态,符号
Figure 446290DEST_PATH_IMAGE036
表示逐元素点积。
实施例中,临床检查表征提取单元可以采用包含至少1层全连接层的全连接神经网络,用于根据双向GRU-D网络输出的隐藏状态提取临床检查表征。
实施例中,预测单元用于基于诊断表征、个体特征表征以及临床检查表征来预测血透病人的死亡率。具体地,预测单元对诊断表征、个体特征表征以及临床检查表征拼接后,采用激活函数对拼接结果进行激活计算以预测血透病人的死亡率。其中,激活函数可以采用Sigmoid函数。
上述血透病人风险预测模型在被应用之前需要经过训练,具体训练过程包括采集并构建样本数据和参数优化两个部分。针对样本数据,从2012到2020年间不同等级的几十个医院搜集临床检查时序数据、图像诊断文字信息、病人个体特征信息。这样可以扩充样本数据的丰富程度,并且验证模型的广泛适应性。
临床检查时序数据被应用之前,还需要经过预处理过程,包括:首先剔除不符合规则、不能对应到具体病人的身份号,据专家指定的临床变量范围来剔除错误记录的临床检查时序数据;然后针对每个临床变量,以天为单位,并以一天内多次测量数据的平均值作为一天的临床变量值,对临床变量值组成的时序数据进行全局归一化操作,采用以天为最小单位能够更好地适用于临床需求,因为医生对病人有相对应的日常干预。针对图像诊断文字信息,采用Jieba进行中文分词,并去除常用的停用词。针对病人个体特征信息,统一身高、体重的度量方式,并根据病人初始透析日期和身份证号计算初始透析年龄,然后将性别表示为one-hot向量,将血管通路类型转为用multi-hot向量。实施例以自然月份将时序数据划分成多个样本,由于目标是在每个月份末尾时预测病人的临床结果,因此以每个月份对应的时序数据作为单个样本。由于主要进行病人是否会在一个月/3个月内死亡的预测。最后根据病人的死亡日期来为样本打上标签。样本数据通过随机抽样的方式被构建训练集、验证集和测试集均,其中训练集用来训练模型参数,验证集用来选择最优的模型,测试集则来测试模型性能。
由于样本数据对应的死亡标签中,非死亡的情况占了绝大多数,即处理的是非常不平衡的样本数据,因此,选择Focal Loss作为损失函数,Focal Loss 能够给难样本和少数类较高的权值,从而改善预测偏差。参数优化时,将训练集中的样本数据输入至血透病人风险预测模型中,以Focal Loss作为损失函数,进行了1000轮分批训练,模型训练时采用Adam优化器,训练学习率0.001,衰减率为0.0001,批大小(batch size)为16384。每经过一轮迭代训练,都会在验证集上进行一次验证,模型根据验证集表现选择具有最优性能的参数。模型在测试集上进行二分类死亡预测,并将AUROC作为模型的评价指标,模型在测试集上的表现证明其有良好的预测性。除了进行整体测试外,根据时间和医院所在城市的医疗资源丰富程度将测试数据划分为若干亚组。实验结果表明模型整体取得了良好的效果,并在亚组测试上取得了较稳定的效果。
实施例构建的血透病人风险预测模型是一种通用的临床风险预测模型。对于相似的医疗场景,可以重新进行模型的训练和测试,实现模型的迁移应用。
基于实施例提供的血透病人风险预测模型,实施例还提供了一种基于时序数据的血透病人风险预测装置,包括存储器、处理器以及存储在所述存储器中并在所述处理器上执行的计算机程序,存储器存储有上述经过训练的血透病人风险预测模型,如图2所示,所述处理器执行所述计算机程序时实现以下步骤:
步骤1,接收经过预处理的临床检查时序数据、图像诊断文字信息、病人个体特征信息。
其中,临床检查时序数据包括多个临床变量的时序数据。
步骤2,对图像诊断文字信息分词并转换为固定长度的向量后,利用诊断表征提取单元基于固定长度的向量提取诊断表征。
步骤3,将病人个体特征信息编码为初始向量后,利用个体特征表征提取单元基于初始向量提取个体特征表征。
步骤4,利用包含多个GRU-D模块的双向GRU-D网络对临床检查时序数据进行插值处理并提取隐藏状态。
具体包括:在每个时间步对应的GRU-D模块中,每个临床变量值经过注意力机制提取重要特征,并将重要特征作为GRU-D模块的输入,同时将表征临床变量值是否存在的掩码作为GRU-D模块的输入,还将临床变量值的月均值作为经验值,GRU-D模块基于输入的重要特征、掩码以及经验值结合第一衰减率进行插值处理后,再结合上一时间步GRU-D模块输出的隐藏状态和第二衰减率计算当前时间步的隐藏状态。
步骤5,利用临床检查表征提取单元基于双向GRU-D网络输出的隐藏状态提取临床检查表征。
步骤6,利用预测单元基于诊断表征、个体特征表征以及临床检查表征来预测血透病人的死亡率,实现血透病人风险预测。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现血透病人风险预测步骤。
基于实施例提供的血透病人风险预测模型,实施例还提供了一种基于时序数据的血透病人风险预测装置,如图3所示,血透病人风险预测装置包括接收模块、预测模块以及输出模块。
接收模块用于接收经过预处理的临床检查时序数据、图像诊断文字信息、病人个体特征信息,临床检查时序数据包括多个临床变量的时序数据。
预测模块用于利用经过训练的血透病人风险预测模型对接收数据进行血透病人的死亡率的预测,包括:对图像诊断文字信息分词并转换为固定长度的向量后,利用诊断表征提取单元基于固定长度的向量提取诊断表征;将病人个体特征信息编码为初始向量后,利用个体特征表征提取单元基于初始向量提取个体特征表征;利用包含多个GRU-D模块的双向GRU-D网络对临床检查时序数据进行插值处理并提取隐藏状态;利用临床检查表征提取单元基于双向GRU-D网络输出的隐藏状态提取临床检查表征;利用预测单元基于诊断表征、个体特征表征以及临床检查表征来预测血透病人的死亡率,实现血透病人风险预测。
输出模块用于输出血透病人的死亡率。
上述实施例提供的血透病人风险预测模型和装置,以临床检查时序数据、图像诊断文字信息、病人个体特征信息这三种多模态信息作为数据源,并采用深度学习依据数据源来提取临床检查表征、诊断表征以及个体特征表征,然后结合这三个特征预测血透病人的死亡率,这样提升死亡预测的准确率和效率,为医生诊疗提供辅助,对于预测出潜在死亡的病人,医生可以及时给与干预,从而优化医疗资源的干预。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于时序数据的血透病人风险预测装置,包括存储器、处理器以及存储在所述存储器中并在所述处理器上执行的计算机程序,其特征在于,存储器存储有经过训练的血透病人风险预测模型,该血透病人风险预测模型包括诊断表征提取单元、个体特征表征提取单元、双向GRU-D网络、临床检查表征提取单元以及预测单元,所述处理器执行所述计算机程序时实现以下步骤:
接收经过预处理的临床检查时序数据、图像诊断文字信息、病人个体特征信息,临床检查时序数据包括多个临床变量的时序数据;
对图像诊断文字信息分词并转换为固定长度的向量后,利用诊断表征提取单元基于固定长度的向量提取诊断表征;
将病人个体特征信息编码为初始向量后,利用个体特征表征提取单元基于初始向量提取个体特征表征;
利用包含多个GRU-D模块的双向GRU-D网络对临床检查时序数据进行插值处理并提取隐藏状态,包括:在每个时间步对应的GRU-D模块中,每个临床变量值经过注意力机制提取重要特征,并将重要特征作为GRU-D模块的输入,同时将表征临床变量值是否存在的掩码作为GRU-D模块的输入,还将临床变量值的月均值作为经验值,GRU-D模块基于输入的重要特征、掩码以及经验值结合第一衰减率进行插值处理后,再结合上一时间步GRU-D模块输出的隐藏状态和第二衰减率计算当前时间步的隐藏状态;
利用临床检查表征提取单元基于双向GRU-D网络输出的隐藏状态提取临床检查表征;
利用预测单元基于诊断表征、个体特征表征以及临床检查表征来预测血透病人的死亡率,实现血透病人风险预测。
2.根据权利要求1所述的基于时序数据的血透病人风险预测装置,其特征在于,所述临床变量包括甲状旁腺激素血红蛋白、白细胞计数、红细胞压积、红细胞计数、血小板压积、血小板计数、透析前肌酐、透析前尿素氮、透析前尿素、空腹血糖、甘油三酯、总胆固醇、高密度脂蛋白、低密度脂蛋白、透前钾、透前氯、透前钠、透前磷、透前钙、透前镁、白蛋白、谷丙转氨酶、谷草转氨酶、总胆红素、碱性磷酸酶、尿素清除指数;
所述图像诊断文字信息包括心脏彩超的诊断文本;
所述病人个体特征信息包括身高、体重、性别、初始透析年龄、血管通路类型。
3.根据权利要求1所述的基于时序数据的血透病人风险预测装置,其特征在于,对临床检查时序数据进行预处理包括:针对每个临床变量,以天为单位,并以一天内多次测量数据的平均值作为一天的临床变量值,并对临床变量值组成的时序数据进行全局归一化操作。
4.根据权利要求1所述的基于时序数据的血透病人风险预测装置,其特征在于,采用Doc2Vec无监督训练方式将图像诊断文字信息对应的分词转换为固定长度的向量。
5.根据权利要求2所述的基于时序数据的血透病人风险预测装置,其特征在于,所述将病人个体特征信息编码为初始向量,包括:统一身高、体重的度量方式,采用one-hot向量编码性别,multi-hot向量编码血管通路类型,编码后的向量与身高、体重、以及初始透析年龄拼接得到初始向量。
6.根据权利要求1所述的基于时序数据的血透病人风险预测装置,其特征在于,所述诊断表征提取单元、个体特征表征提取单元以及临床检查表征提取单元采用全连接神经网络。
7.根据权利要求1所述的基于时序数据的血透病人风险预测装置,其特征在于,所述预测单元对诊断表征、个体特征表征以及临床检查表征拼接后,采用激活函数对拼接结果进行激活计算以预测血透病人的死亡率。
8.根据权利要求1所述的基于时序数据的血透病人风险预测装置,其特征在于,所述血透病人风险预测模型被应用之前需要经过参数优化,参数优化时,采用的损失函数为FocalLoss。
9.一种基于时序数据的血透病人风险预测装置,其特征在于,包括接收模块、预测模块以及输出模块;
所述接收模块用于接收经过预处理的临床检查时序数据、图像诊断文字信息、病人个体特征信息,临床检查时序数据包括多个临床变量的时序数据;
所述预测模块用于利用经过训练的血透病人风险预测模型对接收数据进行血透病人的死亡率的预测,包括:对图像诊断文字信息分词并转换为固定长度的向量后,利用诊断表征提取单元基于固定长度的向量提取诊断表征;将病人个体特征信息编码为初始向量后,利用个体特征表征提取单元基于初始向量提取个体特征表征;利用包含多个GRU-D模块的双向GRU-D网络对临床检查时序数据进行插值处理并提取隐藏状态;利用临床检查表征提取单元基于双向GRU-D网络输出的隐藏状态提取临床检查表征;利用预测单元基于诊断表征、个体特征表征以及临床检查表征来预测血透病人的死亡率,实现血透病人风险预测;
所述输出模块用于输出血透病人的死亡率。
10.如权利要求9所述的基于时序数据的血透病人风险预测装置,其特征在于,利用包含多个GRU-D模块的双向GRU-D网络对临床检查时序数据进行插值处理并提取隐藏状态,包括:在每个时间步对应的GRU-D模块中,每个临床变量值经过注意力机制提取重要特征,并将重要特征作为GRU-D模块的输入,同时将表征临床变量值是否存在的掩码作为GRU-D模块的输入,还将临床变量值的月均值作为经验值,GRU-D模块基于输入的重要特征、掩码以及经验值结合第一衰减率进行插值处理后,再结合上一时间步GRU-D模块输出的隐藏状态和第二衰减率计算当前时间步的隐藏状态。
CN202211486609.5A 2022-11-23 2022-11-23 基于时序数据的血透病人风险预测装置 Active CN115547502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211486609.5A CN115547502B (zh) 2022-11-23 2022-11-23 基于时序数据的血透病人风险预测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211486609.5A CN115547502B (zh) 2022-11-23 2022-11-23 基于时序数据的血透病人风险预测装置

Publications (2)

Publication Number Publication Date
CN115547502A true CN115547502A (zh) 2022-12-30
CN115547502B CN115547502B (zh) 2023-04-07

Family

ID=84720331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211486609.5A Active CN115547502B (zh) 2022-11-23 2022-11-23 基于时序数据的血透病人风险预测装置

Country Status (1)

Country Link
CN (1) CN115547502B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364290A (zh) * 2023-06-02 2023-06-30 之江实验室 基于多视图对齐的血透表征识别与并发症风险预测系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778014A (zh) * 2016-12-29 2017-05-31 浙江大学 一种基于循环神经网络的患病风险预测方法
CN112597921A (zh) * 2020-12-28 2021-04-02 杭州电子科技大学 一种基于注意力机制gru深度学习的人体行为识别方法
CN113096818A (zh) * 2021-04-21 2021-07-09 西安电子科技大学 基于ode和grud的急性病症发生几率的评估方法
CN113270192A (zh) * 2021-04-19 2021-08-17 浙江大学 基于动静态数据结合与深度自编码器的血透风险预测系统
CN113744873A (zh) * 2021-11-08 2021-12-03 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统
WO2021244993A1 (en) * 2020-06-05 2021-12-09 Sensyne Health Group Limited Machine learning method and system suitable for prediction of disease onset using multi-variate longitudinal patient data
CN114883003A (zh) * 2022-06-08 2022-08-09 中南大学 基于卷积神经网络的icu住院时长和死亡风险预测方法
US20220318626A1 (en) * 2021-04-05 2022-10-06 Nec Laboratories America, Inc. Meta-training framework on dual-channel combiner network system for dialysis event prediction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778014A (zh) * 2016-12-29 2017-05-31 浙江大学 一种基于循环神经网络的患病风险预测方法
WO2021244993A1 (en) * 2020-06-05 2021-12-09 Sensyne Health Group Limited Machine learning method and system suitable for prediction of disease onset using multi-variate longitudinal patient data
CN112597921A (zh) * 2020-12-28 2021-04-02 杭州电子科技大学 一种基于注意力机制gru深度学习的人体行为识别方法
US20220318626A1 (en) * 2021-04-05 2022-10-06 Nec Laboratories America, Inc. Meta-training framework on dual-channel combiner network system for dialysis event prediction
CN113270192A (zh) * 2021-04-19 2021-08-17 浙江大学 基于动静态数据结合与深度自编码器的血透风险预测系统
CN113096818A (zh) * 2021-04-21 2021-07-09 西安电子科技大学 基于ode和grud的急性病症发生几率的评估方法
CN113744873A (zh) * 2021-11-08 2021-12-03 浙江大学 一种基于任务分解策略的发热待查辅助鉴别诊断系统
CN114883003A (zh) * 2022-06-08 2022-08-09 中南大学 基于卷积神经网络的icu住院时长和死亡风险预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MANSURA HABIBA 等: "Neural ODEs for Informative Missingess in Multivariate Time Series", 《2020 31ST IRISH SIGNALS AND SYSTEMS CONFERENCE (ISSC)》 *
XIAOYANG RUAN 等: "Real-time risk prediction of colorectal surgery-related post-surgical complications using GRU-D model", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
史振坤: "面向ICU的医疗数据挖掘关键技术研究与应用", 《中国博士学位论文全文数据库 医药卫生科技辑》 *
唐雯等: "循环神经网络模型在腹膜透析临床预后预测中的初步应用", 《北京大学学报(医学版)》 *
王振;张生: "基于时域卷积与双向GRU神经网络的时序预测模型" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116364290A (zh) * 2023-06-02 2023-06-30 之江实验室 基于多视图对齐的血透表征识别与并发症风险预测系统
CN116364290B (zh) * 2023-06-02 2023-09-08 之江实验室 基于多视图对齐的血透表征识别与并发症风险预测系统

Also Published As

Publication number Publication date
CN115547502B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN113421652B (zh) 对医疗数据进行分析的方法、训练模型的方法及分析仪
CN112801168B (zh) 一种肿瘤影像的病灶区域预测分析方法、系统及终端设备
KR20170061222A (ko) 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치
CN109544518B (zh) 一种应用于骨骼成熟度评估的方法及其系统
CN111180068A (zh) 一种基于多任务学习模型的慢病预测系统
CN115602325A (zh) 一种基于多模型算法的慢性病风险评估方法及其系统
CN112164448A (zh) 免疫治疗疗效预测模型训练方法、预测系统及方法和介质
CN118098482B (zh) 基于5g技术的智慧医疗管理系统及方法
CN116110597B (zh) 一种基于数字孪生的患者病症类别智能分析方法及装置
CN115547502B (zh) 基于时序数据的血透病人风险预测装置
CN117116477A (zh) 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统
CN115778403A (zh) 心电图分析方法、装置、电子设备和存储介质
CN111047590A (zh) 基于眼底图像的高血压分类方法及设备
CN114613497A (zh) 基于gbdt样例级的病患样本的智能医学辅助诊断方法
CN117912689A (zh) 基于大语言模型的胃癌健康宣教和患病风险预测系统和方法
CN112802598A (zh) 基于语音诊疗数据的实时辅助诊疗方法及系统
CN116524248B (zh) 医学数据处理装置、方法及分类模型训练装置
CN115394448B (zh) 冠心病运动反应性预测模型的建模方法、模型、设备
CN115719333A (zh) 基于神经网络的影像质控评价方法、装置、设备、介质
CN115273176A (zh) 一种基于生命体征和表情的疼痛多算法客观评估方法
CN115171896A (zh) 一种重症患者长期死亡风险预测系统及方法
Arab et al. Artificial intelligence for diabetes mellitus type II: forecasting and anomaly detection
Koçak et al. The diagnosis of diabetes mellitus with boosting methods
Kathiresan Analysis on cardiovascular disease classification using machine learning framework
CN117116476B (zh) 下游任务预测方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant