CN110957015B - 电子医疗记录数据的缺失值填充方法 - Google Patents

电子医疗记录数据的缺失值填充方法 Download PDF

Info

Publication number
CN110957015B
CN110957015B CN201911210250.7A CN201911210250A CN110957015B CN 110957015 B CN110957015 B CN 110957015B CN 201911210250 A CN201911210250 A CN 201911210250A CN 110957015 B CN110957015 B CN 110957015B
Authority
CN
China
Prior art keywords
missing
value
patient
data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911210250.7A
Other languages
English (en)
Other versions
CN110957015A (zh
Inventor
张莹
欧阳嘉伟
蔡祥睿
袁晓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201911210250.7A priority Critical patent/CN110957015B/zh
Publication of CN110957015A publication Critical patent/CN110957015A/zh
Application granted granted Critical
Publication of CN110957015B publication Critical patent/CN110957015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提出了一种结合患者特征缺失规律的电子医疗记录数据的缺失值填充方法。本发明方法是构建由两个循环神经网络构成的联合模型,综合利用未缺失医疗数据的数值信息与患者特征的缺失规律,以判断患者生理状态并提取对应的状态特征,从而根据对应时刻患者的生理状态对各个特征缺失的值进行推断,实现合乎客观事实的患者特征缺失值的填充。对于缺失规律是非随机性的电子医疗记录数据,本发明方法的效果显著优于其他未考虑缺失规律的数据填充模型,证明医疗数据中的非随机缺失性质有助于模型判断患者生理状态,并且有益于模型对数据缺失值进行合理地填充。

Description

电子医疗记录数据的缺失值填充方法
技术领域
本发明属于人工智能技术领域,具体涉及多元时序数据格式的电子医疗记录数据,特别是对电子医疗记录数据中的缺失值进行推断和填充的方法。
背景技术
随着医学研究与资源存储的发展,电子医疗记录已经逐渐成为收集患者就医信息的主要存储形式,并且记录了大量与患者相关的各类医疗数据,如:生理指标、用药情况、病情发展等等,这为开展广泛的人体健康与医学诊断的研究提供了坚实的基础。
由于数据采集不规律、记录不完全、传输不稳定等问题,电子医疗记录会缺失大量数据。这些缺失值会导致用于分析的数据信息不完整并且存在偏差性,从而影响模型的分析性能,严重的会造成模型对结果的误判。并且目前大部分模型是基于完整数据集构造的,含有缺失值的数据集无法直接应用于这些模型。因此解决电子医疗记录数据中的缺失值问题是非常重要并且有意义的研究。
填充是用于解决缺失值的常见方法,此方法基于可观察到的存在值去推断并填充缺失值。传统的缺失值填充方法常基于统计推断或者机器学习,但它们忽视了电子医疗记录中的时间特性。电子医疗记录是根据患者就医数据收集而成的,每次患者被诊断都会测量并记录多个特征的数据。因此电子医疗记录是多元时序数据,传统的填充方法存在瓶颈。
近些年来,有许多深度学习的方法尝试通过循环神经网络模型捕获医疗数据中的时序关系,从而实现更加有效、准确的填充。但这些方法未考虑医疗偏颇造成的缺失非随机性,因此仍具有一定的局限性。
医疗偏颇在医疗数据中非常普遍,它反映在患者产生数据并被记录下来这个事件不是完全随机的,从而导致数据的缺失遵循着一定的规律。最常见的现象是:患者感到身体不适时会更频繁地去医院,医生发现病人身体存在异常时会执行更多地检查以诊断病情,因此这些情况下会有很多数据记录下来;而当患者身体健康时,或者医生判断患者身体好转时,往往不会进行过多的测量,这时则有大量缺失值存在。这是一个典型的医疗偏颇规律,身体状况好的人被记录下的数据往往少于身体抱恙的患者,即正常值、健康值的缺失率往往高于异常值。可见,这样的缺失非随机性蕴含大量与值关联的信息,可以帮助模型对缺失值进行更加合理、准确的填充。
综上所述,结合非随机性的缺失规律对电子医疗记录数据进行缺失值填充是一个创新的研究思路,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决现有的电子医疗记录数据的缺失值填充方法对医疗偏颇考虑不足的问题,提出一种结合数据缺失规律的电子医疗记录数据的缺失值填充方法。该方法以循环神经网络为框架,同时考虑电子医疗记录的未缺失数值信息与非随机缺失规律,使填充的数值不但数值上准确,并且合乎情理。
本发明的技术方案
电子医疗记录数据的缺失值填充方法,该方法构建一个联合循环神经网络模型,同时捕获电子医疗记录的数值信息与缺失规律,通过门机制结合这两部分以生成表征患者生理状态的特征,并基于此特征与未缺失的存在值对电子医疗记录中的缺失值进行推断并填充,最终生成可适用于各类下游分析模型的完整数据集。该填充方法的具体步骤如下:
第1、数据预处理
电子医疗记录包含与患者相关的各类医疗数据,因此体量非常大,往往通过数据库、归档文件等介质进行存储。并且电子医疗记录存储的是原生数据,存在很多噪声数据和异常点,数据组织形式也不规则。为使数据适用于研究工作,本发明对电子医疗记录进行数据抽取与标准化处理,进而构建可直接输入模型的数值矩阵与缺失状态矩阵。
第1.1、数据抽取与标准化处理;
收集电子医疗记录数据,选取用于研究的医疗时序特征,根据患者标识提取出与对应患者相关的时序特征数据。设置用于研究的患者数据窗口的阈值,过滤去掉特征的时序长度未达到阈值的患者,并截取剩下患者在窗口内的时序特征数据用于研究。
检测并过滤剩下数据中的噪声值与异常值,同时把这些噪声值与异常值与未测量的值都归为缺失值。之后设置固定时间长度对每个患者的数据按照时间进行切片,并把每个时间片段中的患者数据按对应特征求取均值进行聚合。这样每个患者数据的时间划分格式是一致的,每个时间刻度是一个多维向量,向量每个元素代表一个医疗时序特征的值。
第1.2、构建数值矩阵与缺失状态矩阵;
经过上一步的处理,电子医疗记录中每个患者的数据可转化为时间维度和特征维度都统一的多元时间序列数据。为使数据可直接用于模型训练,根据数据值与缺失信息构造数值矩阵与缺失状态矩阵。
定义1:数值矩阵X,定义如下:
数值矩阵代表单个患者的多元时序医疗数据,矩阵行向量代表每个特征在不同时间的数值,列向量代表每个时刻不同特征的数值:
Figure BDA0002297917710000031
数值矩阵由n个时间维度的数据向量构成,每个向量xi包含d个医疗特征的数值。对于存在的值,矩阵中元素xij为实数;对于缺失值,xij设置为0。
定义2:缺失状态矩阵M,定义如下:
缺失状态矩阵代表患者不同时刻各个特征的数据缺失情况;考虑到数值矩阵中存在的值也可能为0,因此需要额外引入一个缺失状态矩阵来标记数值矩阵中元素的存在与缺失两种状态;缺失状态矩阵中的每个元素标明数值矩阵对应元素是否缺失:
M=(m1,…,mi...,mn)∈{0,1}d×n
对于矩阵中元素mij,赋值规则如下:
Figure BDA0002297917710000032
第2、挖掘患者特征的数值信息与缺失规律
第1步得到的数值矩阵与缺失状态矩阵包含了模型需要的全部信息,并且可直接用于模型训练。通过联合两个循环神经网络中经典的GRU(Gated Recurrent Unit)模型,挖掘数值矩阵反映的数值信息与缺失状态矩阵反映的缺失规律,并生成对应的特征向量。
第2.1、根据数值矩阵挖掘患者特征的数值信息;
数值矩阵记录患者特征测量到的值,矩阵元素反映特征数据值的变动范围和变化规律信息。GRU模型按时序读取患者的特征数值向量,并通过更新或者重置模型的记忆单元来记录数值矩阵在时间维度上的变化规律。同时模型在每个时刻通过一层隐含层输出对应时刻数值信息的特征向量Hi
Hi=GRUH(xi)
第2.2、根据缺失状态矩阵挖掘患者特征的缺失规律;
缺失状态矩阵记录患者特征的缺失情况,矩阵元素反映数据的缺失规律。而医疗数据的非随机性缺失规律隐含着医疗偏颇,这进一步反映患者身体状态的变化情况。本发明通过另一个GRU模型挖掘缺失状态矩阵的变化规律,同时在每个时刻输出对应的缺失规律特征向量hi
hi=GRUh(mi)
第3、生成患者生理状态特征
未缺失的患者数值信息体现患者身体素质的水平,特征的缺失规律反映患者身体健康的变动情况。结合这两部分可推断患者各时刻的生理状态,通过此生理状态可推知患者对应时刻缺失数据的可选变动范围。为结合未缺失的患者数值信息与特征的缺失规律,构建一个基于门机制的聚合层以生成用于过滤与更新信息的门控制向量gi,此门控制向量融合第2步得到的数值信息特征向量Hi和缺失规律特征向量hi,进而生成对应时刻表明患者生理状态的特征向量Ci。具体操作如下:
gi=σ(Wghi+bg)
ci=tanh(Wc[gi⊙Hi]+bc)
其中gi是门控制向量,Wg、bg、Wc、bc是模型的超参数。
考虑到数值信息与填充任务更加相关,缺失规律主要为填充数值提供辅助效用。本发明通过σ函数把缺失规律向量的值映射到[0,1]区间,此函数输出的门控制向量gi可用于优化数值信息(放缩数值信息向量的元素大小,从而实现优化数值信息的目的)。最后通过一个tanh激活函数生成更加符合患者生理状态的特征变量。
第4、推断电子医疗记录中的缺失值
为实现对电子医疗记录中缺失值的合理推断,本发明不但根据第3步得到的生理状态特征生成填充候选值,又基于未缺失的存在值生成特征回归值,并通过权重参数按比例结合填充候选值与特征回归值,以此作为缺失部分的推断值;
第4.1、基于生理状态特征生成填充候选值;
第3步聚合层生成的生理状态特征是基于患者的历史数值信息和缺失规律对患者当前状态做出的判断,为实现对缺失值的推断,本发明运用全连接层把上一时刻生成的生理状态特征向量Ci-1映射到估计当前时刻各个特征数值的填充候选向量
Figure BDA0002297917710000041
Figure BDA0002297917710000042
其中WH、bH是模型的超参数;
由于生理状态特征蕴含的缺失规律是非随机性的,因此生成的填充候选值向量是考虑医疗偏差之后对缺失值做出的推断。
第4.2、基于存在值生成特征回归值;
为提高推断缺失值的合理性,本发明还基于当前时刻未缺失的存在值生成特征回归值,利用特征之间的相互关系对当前时刻的缺失值进行估计。为实现特征回归,本发明采用全连接层映射存在值向量xi到估计缺失值的特征回归向量
Figure BDA0002297917710000051
Figure BDA0002297917710000052
其中WR、bR是模型的超参数。并且WR的对角线元素是0,这样能够避免发生用自己推断自己的情况(即:用xij估计
Figure BDA0002297917710000053
)。
依据此法生成的特征回归值充分考虑了当前存在值直观反映的患者信息。但当缺失率较高时,为数不多的存在值无法发挥很大的效用,因此特征回归值需结合第4.1步中生成的填充候选值对缺失部分做出更合理的推断。
第4.3、通过权重参数结合填充候选值与特征回归值,以此推断缺失值;
填充候选值是基于患者的历史数据对缺失值做出的推断,特征回归值是基于患者当前时刻数据对缺失值做出的估计。这两部分对缺失值的推断都起关键作用,因此本发明通过一个权重参数βi分配填充候选值与特征回归值这两部分重要性的比例。这个权重参数是通过σ函数映射当前时刻的缺失状态向量mi得到的,函数的映射结果是一个元素值在[0,1]区间的向量。缺失状态向量标明当前时刻的缺失情况,这对决定两部分的权重非常重要:当缺失率较高时,在推断缺失值时应该多考虑基于历史数据的填充候选值;当缺失率较低时,则会多考虑基于当前数据的特征回归值。具体的推断公式如下所示:
βi=σ(Wβmi+bβ)
Figure BDA0002297917710000054
其中Wβ、bβ是模型的超参数;
Figure BDA0002297917710000055
是推断值向量。
第5、用推断值填充缺失值
第4.3步得到的推断值向量
Figure BDA0002297917710000056
既包含对缺失值的估计,也含有对存在值的推理。其中对缺失值的估计就是填充需要的部分,但推断值是否达到填充标准需要根据对存在值的推理进行判断。本发明把存在值与对应的推理值的二阶范数作为填充误差,并以此作为损失函数训练模型,以提高模型对缺失值填充的效果。损失函数为:
Figure BDA0002297917710000057
当填充误差未达到预设的阈值时,模型会用推断值更新数值矩阵中的缺失值,并回到第2步继续训练模型。当填充误差达到阈值,此时模型对缺失值的推断达到最优,可通过推断值填充缺失部分,并保留未缺失部分以得到当前时刻的完整数据向量:
Figure BDA0002297917710000058
整合每个患者各时刻经过填充后的数据向量,即可得到完整的电子医疗记录数据。
本发明的优点和积极效果:
本发明开创性地提出一个考虑医疗数据中非随机缺失规律的电子医疗记录数据缺失值填充方法,通过构建循环神经网络联合模型来同时捕获患者多元时序医疗数据的数值信息与缺失规律,并且通过门机制结合这两部分信息。特别的,考虑到数值信息与填充值更加相关,而缺失规律更多地是起辅助填充的作用,因此把缺失规律映射为放缩数值信息的控制门,以此实现更加准确的填充效果。本发明重点关注医疗数据中的医疗偏颇对缺失值填充任务的影响,通过联合模型充分利用医疗偏颇导致的非随机性缺失规律,以此提升填充电子医疗记录中缺失值的效果,有效地解决了因缺失率太高、填充不准确等问题造成数据分析困难的窘境。
附图说明
图1为电子医疗记录数据缺失值填充方法的流程图。
图2为用于缺失值填充的循环神经网络联合模型框架示意图。
图3为开源电子医疗记录数据集的统计信息。
图4为数值矩阵与缺失状态矩阵示意图。
图5为联合模型基本框架示意图。
图6为生成患者生理状态特征的聚合层框架示意图。
图7为推断缺失值的填充层框架示意图。
图8为基于Physionet和MIMIC-III数据集的填充误差结果示意图。
图9为基于Physione数据集的填充后预测任务准确率结果示意图。
图10为基于MIMIC-III数据集的填充后预测任务准确率结果示意图。
具体实施方式
本发明提出了一种电子医疗记录数据的缺失值填充方法,方法的主要流程如图1所示。
本发明的具体实施过程分为五个步骤,其中第2到4步是基于如图2所示的循环神经网络联合模型执行的。下面结合附图详细说明本发明的具体实施方式。
第1步、数据预处理
收集开源电子医疗记录作为研究的数据集,常见的有麻省理工学院计算生理学实验室开发的公开可用数据集MIMIC-III,此数据集由2001年~2012年在Beth IsraelDeaconess医疗中心重症监护室中就医的4万多患者的医疗数据组成。另一个经典数据集是Physionet2012,此数据集是从MIMIC-III中抽取部分数据并执行简单的数据处理操作生成。这个数据最初是用于Physionet2012的医疗预测比赛,现在常用于相关的医学研究。
在获得电子医疗记录的数据集后,从数据集中选取常见医疗特征用于研究,MIMIC-III中挑选出86个,Physionet中挑选出41个。之后设置长度为48小时的研究窗口,去除掉所有特征都未达到窗口长度的患者,并截取剩下患者数据的前48小时数据用于研究。之后运用统计学中的3-σ法则检测出数据中的异常值,并设置这些异常值为缺失。之后设置时间长度为1小时的切片区间,把所有数据在时间维度上切片划分为48个等距的区间。对于每个患者的数据,求取对应区间中各个特征的平均值,对于区间中未出现任何值的特征设置为缺失值。这样就得到了经过标准化处理的数据集,处理后的两个数据集的统计信息如图3。
在处理完数据后,得到的数据集中每个患者的数据可以转化为数值矩阵的格式,其中每一行代表一个特征,每一列代表一个时间区间。由数值矩阵可推导出缺失状态矩阵:若对应时刻特征的数值存在,则缺失状态矩阵中设为1,否则设置为0。图4展示了由数值矩阵导出缺失状态矩阵的样例。
第2步、挖掘患者特征的数值信息与缺失规律
经过各项数据预处理操作后,每个患者的数据归置为数值矩阵和缺失状态矩阵两部分。为捕获这两部分隐含的特征规律,构建由两个GRU网络组合而成的联合模型来同时挖掘数值信息与缺失规律。图5展示了联合模型的基本框架,框架的核心由两个GRU连接而成,在训练时会把缺失状态矩阵学到的隐含特征传递给数值矩阵。
对于患者每个时刻的缺失状态向量(m1,…,mi…,m48),GRU每个单元会按时序逐个读取并生成对应时刻代表缺失规律的隐特征向量。并且每个时刻的隐特征向量会传递给下一个GRU单元,帮助生成后续的隐特征向量。由此可得到保留了时序信息的缺失规律特征向量(h1,...,hi...,h48)。这些向量也会传递给对应时刻的数值矩阵,帮助GRU同时捕获患者特征的数值信息。
由于患者的数值信息与缺失规律是随时间同步变化的,因此对每个时刻缺失状态矩阵与数值矩阵的分析应该同时进行,挖掘数值信息时应该运用上对应时刻的缺失规律。由此对于患者每个时刻的数值向量(x1,...,xi...,x48),会有另一个GRU同步按时序挖掘数值矩阵的规律。与捕获缺失状态矩阵相似,数值矩阵也会生成对应保留时序特征的隐特征向量(H1,...,Hi...,H48)。不过这些向量会结合来自缺失规律的特征向量(h1,...,hi...,h48)以生成表征当前时刻患者生理状态的向量。
第3步、生成患者生理状态特征
经过两个GRU网络,联合模型已经可以挖掘到患者的数值信息与缺失规律,接下来需要考虑如何有效地结合它们以生成表征患者对应时刻生理状态的特征向量。而且此特征向量的核心应该基于数值信息(H1,...,Hi...,H48),并作为可替代数值信息的隐特征在GRU模型中起到传递记忆的作用,以帮助模型更准确地分析患者的状态与值的规律。
为生成患者的生理状态特征,模型通过图6所示的联合层框架结合上一步挖掘的两部分信息(h1,...,hi...,h48)与(H1,...,Hi...,H48),并以此生成可替换数值信息的患者生理状态向量(C1,...,Ci...,C48):
Ci=Fusion(σ(hi),Hi)
因为考虑到各个特征的数值是更加直接反映患者生理状态的信息,因此模型尽可能保留数值信息。但不同患者的相同数值可能反映不同的状态,因此需要结合缺失规律帮助判断。而且缺失规律在某种程度上是反映患者状态的变化情况,因此它可以更有效地帮助模型刻画出每个时刻的患者数值反映出的生理状态。
缺失规律向量被常用于执行门机制的σ函数处理为元素数值在[0,1]区间的门向量(g1,...,gi...,g48)。这个门向量会作用于对应的数值信息向量Hi,从而放缩Hi中各个元素的信息。经过大量数据训练后,原本表示数值信息的各个元素经过缺失规律放缩,能更准确地表示患者生理状态。由此生成的生理状态向量Ci,即可代替数值信息帮助GRU训练,也可生成对应的填充候选值帮助推断缺失值。
第4步、推断电子医疗记录中的缺失值
患者每个时刻特征的数值与生理状态密切相关,为推断患者每个时刻数据中的缺失值,模型首先通过按时序生成的生理状态向量(C1,...,Ci...,C48)生成对缺失值推断的填充候选值
Figure BDA0002297917710000081
由于患者的生理状态特征是由GRU生成的,因此每个状态向量都蕴含历史信息,从而得到的填充候选值也是结合历史数据规律对缺失值做出的推断。但生成单个候选值
Figure BDA0002297917710000082
时,基于的Ci-1只包含了i时刻之前的数据信息,未考虑当前时刻未丢失数据的信息。
因此模型设置如图7所示的填充层框架,填充层是结合基于历史数据生成的填充候选值
Figure BDA0002297917710000083
与各个时刻可观察到的数值(x1,...,xi...,x48)生成对缺失值的推断。并且通过缺失状态判断两部分的重要性,决定两部分的权重比例:
Figure BDA0002297917710000084
其中填充候选向量
Figure BDA0002297917710000085
即包含时序信息,也蕴含缺失规律的非随机性特征,并且候选向量中每个元素已经是对特征的推理值。而数值向量xi中缺失部分的值为0,需要通过特征之间的相互关系估计缺失值。并且为了防止出现未缺失的值自己估计自己的伪推断情形,引入如下对角线元素是0的矩阵作为模型超参数:
Figure BDA0002297917710000091
由此未缺失的值可通过特征关联性生成对缺失值的推断,同时也生成一个对未缺失值的估计,这部分估计值可以帮助判断模型是否已训练调优。总而言之,由当前时刻存在值得到的特征回归向量
Figure BDA0002297917710000092
包含对应时刻存在值的信息与特征之间的相互作用关系。
为结合填充候选值与特征回归值,模型通过σ函数处理缺失状态向量,并以得到权衡两部分的参数(β1,...,βi...,β48)。并通过赋值βi和(1-βi)保证两部分信息是此消彼长的方式结合:当缺失值较多时,基于历史数据的填充候选值对推断缺失起更大作用;当缺失值较少时,则特征回归值蕴含的丰富信息更有助于缺失值推断。
第5步、用推断值填充缺失值
在缺失值填充阶段,模型依靠存在值的推断损失对整体参数进行调优,当确保损失降到一定阈值时,再用模型生成的推断值去填充缺失值。由此可实现更加有效并且合理的缺失值填充。为得到满足要求的推断值
Figure BDA0002297917710000093
需要对模型中所有超参数的集合Sw进行训练,相应的似然函数为:
Figure BDA0002297917710000094
其中
Figure BDA0002297917710000095
为推断值的集合。
Figure BDA0002297917710000096
为损失函数,具体为存在值与模型推断值之间的二范数。通过监督的方式对模型进行训练,使损失函数
Figure BDA0002297917710000097
越来越小,并且梯度下降得到的变动量会通过反向传播的方式传递到模型每一层,更新模型各个部分的超参数,从而使模型的推断值越来越接近真实值。当模型的参数经过不断优化后,损失函数将降到一定的阈值,此时可用此模型的推断值来填充数据中缺失的部分。为获得完整的数据集XO,模型用推断值填充缺失的部分,剩下未缺失的部分保留存在值:
Figure BDA0002297917710000098
模型得到的XO即是经过本发明填充后的完整电子医疗记录数据,我们在Physionet和MIMIC-III数据集上验证我们方法的填充效果。我们设置两组类别的九个方法作为对比实验:第一组方法为基于统计学与机器学习的经典填充方法,即Mean、KNN、MF、MICE与GAIN;第二组为基于深度学习模型的RNN框架的近期研究方法,即M-RNN、BRITS、GAN-2-Stage、E2GAN。我们以均方根误差(RMSE)作为比较填充效果的衡量标准:RMSE的数值越小,填充误差越小,即填充效果越好;RMSE的数值越大,填充误差越大,即填充效果越差。图8展示了基于Physionet和MIMIC-III数据集的填充误差结果。通过图8能发现,第二组的方法普遍优于第一组的方法,并且最优的对比方法为E2GAN,在两个数据集上的RMSE值分别为0.5623与0.5131。而本专利提出的方法ImputeRNN在两个数据集上都取得优于所有对比方法的填充效果,最小的RMSE值分别为0.5443与0.4906。相比于最优的对比方法E2GAN,本专利方法的填充效果在Physionet数据集上实现了3.2%的提升,在MIMIC-III数据集上实现了4.3%的提升。由此可见,本发明的方法在数据集的填充效果上取得了不错的效果。
填充之后的数据集可直接用于各类下游的研究分析工作,因此可通过比较填充数据集在下游任务的表现,进一步分析我们模型的填充效果。若经填充后的数据集在下游任务取得良好的效果,则从侧面反映填充方法的有效性。我们分别在Physionet和MIMIC-III数据集上验证经方法填充后患者死亡预测任务的准确率,并设置与填充误差相同的两组对比实验。经过对比实验方法与本发明方法填充之后可分别得到完整的数据集,之后通过四个不同的分类器预测患者是否死亡,这四个分类器为:逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)和循环神经网络(RNN)。我们以AUC数值作为比较预测效果的衡量标准:AUC的数值越大,预测准确率越高,即填充效果越好;AUC的数值越小,预测准确率越低,即填充效果越差。图9展示了基于Physione数据集的填充后预测任务准确率结果。图10展示了基于MIMIC-III数据集的填充后预测任务准确率结果。由图9和图10可知,ImputeRNN在两个数据集的各个分类器上的预测效果都优于对比实验的方法,并且在MIMIC-III数据集上的提升效果普遍高于Physione数据集。在Physione数据集上,ImputeRNN通过RNN分类器取得了最大的AUC数值0.8748,相比于最优的对比方法E2GAN,ImputeRNN实现了0.2%的提升。而在MIMIC-III上,ImputeRNN也是通过RNN分类器取得了最大的AUC数值0.8977,实现了1.8%的提升。由此可见,本发明的方法在数据集填充之后的预测任务效果上取得了不错的效果。

Claims (1)

1.电子医疗记录数据的缺失值填充方法,具体步骤如下:
步骤1、数据预处理
首先对电子医疗记录进行数据抽取与标准化处理,进而构建能够直接输入模型的数值矩阵与缺失状态矩阵;
步骤1.1、数据抽取与标准化处理;
收集电子医疗记录数据,选取用于研究的医疗时序特征,根据患者标识提取出与对应患者相关的时序特征数据;设置用于研究的患者数据窗口的阈值,过滤去掉特征的时序长度未达到阈值的患者,并截取剩下患者在窗口内的时序特征数据用于研究;
检测并过滤剩下数据中的噪声值与异常值,同时把这些噪声值与异常值与未测量的值都归为缺失值;之后设置固定时间长度对每个患者的数据按照时间进行切片,并把每个时间片段中的患者数据按对应特征求取均值进行聚合;
步骤1.2、构建数值矩阵与缺失状态矩阵;
为使数据可直接用于模型训练,根据数据值与缺失信息构造数值矩阵与缺失状态矩阵;
定义1:数值矩阵X,定义如下:
数值矩阵代表单个患者的多元时序医疗数据,数值矩阵的行向量代表每个特征在不同时间的数值,列向量代表每个时刻不同特征的数值:
Figure FDA0004145718900000011
数值矩阵由n个时间维度的数据向量构成,每个向量xi包含d个医疗特征的数值;对于存在的值,矩阵中元素xij为实数;对于缺失值,xij设置为0;
定义2:缺失状态矩阵M,定义如下:
缺失状态矩阵代表患者不同时刻各个特征的数据缺失情况;考虑到数值矩阵中存在的值也可能为0,因此需要额外引入一个缺失状态矩阵来标记数值矩阵中元素的存在与缺失两种状态;缺失状态矩阵中的每个元素标明数值矩阵对应元素是否缺失:
M=(m1,…,i…,n)∈{0,1}d×n
对于矩阵中元素mij,赋值规则如下:
Figure FDA0004145718900000012
步骤2、挖掘患者特征的数值信息与缺失规律
步骤1得到的数值矩阵与缺失状态矩阵表征了模型需要的全部信息,并且能够直接用于训练;通过构建两个循环神经网络中经典的GRU(Gated Recurrent Unit)模型,挖掘数值矩阵反映的数值信息与缺失状态矩阵反映的缺失规律,并生成对应的特征向量;
步骤2.1、根据数值矩阵挖掘患者特征的数值信息;
数值矩阵记录患者特征测量到的值,矩阵元素反映特征数据值的变动范围和变化规律信息;GRU模型按时序读取患者的特征数值向量,并通过更新或者重置模型的记忆单元来记录数值矩阵在时间维度上的变化规律;同时模型在每个时刻通过一层隐含层输出对应时刻数值信息的特征向量Hi
Hi=RUH(xi)
步骤2.2、根据缺失状态矩阵挖掘患者特征的缺失规律;
缺失状态矩阵记录患者特征的缺失情况,矩阵元素反映数据的缺失规律;通过另一个GRU模型挖掘缺失状态矩阵的变化规律,并且每个时刻输出对应的缺失规律特征向量hi
hi=RUh(mi);
步骤3、生成患者生理状态特征
未缺失的患者数值信息体现患者身体素质的水平,特征的缺失规律反映患者身体健康的变动情况;为结合未缺失的患者数值信息与特征的缺失规律,构建一个基于门机制的聚合层以生成用于过滤与更新信息的门控制向量gi,此门控制向量融合第2步得到的数值信息特征向量Hi和缺失规律特征向量hi,进而生成对应时刻表明患者生理状态的特征向量Ci;具体操作如下:
gi=(Wghi+g)
Ci=tanh(Wc[i⊙Hi]+bc)
其中gi是门控制向量,Wg、bg、Wc、vc是模型的超参数;
考虑到数值信息与填充任务更加相关,缺失规律主要为填充数值提供辅助效用;通过σ函数把缺失规律特征向量的值映射到[0,1]区间,此函数输出的门控制向量gi用于优化数值信息,并通过一个tanh激活函数生成更加符合患者生理状态的特征变量;
步骤4、推断电子医疗记录中的缺失值
为实现对电子医疗记录中缺失值的合理推断,根据第3步得到的生理状态特征生成填充候选值,同时基于未缺失的存在值生成特征回归值,并通过权重参数按比例结合填充候选值与特征回归值,以此作为缺失部分的推断值;
步骤4.1、基于生理状态特征生成填充候选值;
步骤3聚合层生成的生理状态特征是基于患者的历史数值信息和缺失规律对患者当前状态做出的判断,为实现对缺失值的推断,运用全连接层把上一时刻生成的生理状态特征向量Ci-1映射到估计当前时刻各个特征数值的填充候选向量
Figure FDA0004145718900000031
Figure FDA0004145718900000032
其中WH、bH是模型的超参数;
步骤4.2、基于存在值生成特征回归值;
为了提高推断缺失值的合理性,基于当前时刻未缺失的存在值生成特征回归值,利用特征之间的相互关系对当前时刻的缺失值进行估计;为实现特征回归,采用全连接层映射存在值向量xi到估计缺失值的特征回归向量
Figure FDA0004145718900000033
Figure FDA0004145718900000034
其中wR、bR是模型的超参数;并且WR的对角线元素是0,这样能够避免发生用自己推断自己的情况;
当缺失率较高时,为数不多的存在值无法发挥很大的效用,因此特征回归值需结合第4.1中生成的填充候选值对缺失部分做出更合理的推断;
步骤4.3、通过权重参数结合填充候选值与特征回归值,以此推断缺失值;
填充候选值是基于患者的历史数据对缺失值做出的推断,特征回归值是基于患者当前时刻数据对缺失值做出的估计,通过一个权重参数βi分配填充候选值与特征回归值这两部分重要性的比例;这个权重参数是通过σ函数映射当前时刻的缺失状态向量mi得到的,映射结果是一个元素值在[0,1]区间的向量;缺失状态向量标明当前时刻的缺失情况:当缺失率较高时,在推断缺失值时应该多考虑基于历史数据的填充候选值;当缺失率较低时,则会多考虑基于当前数据的特征回归值;具体的推断公式如下所示:
βi=(Wβmi+β)
Figure FDA0004145718900000035
其中Wβ、bβ是模型的超参数;
Figure FDA0004145718900000036
是推断值向量;
步骤5、用推断值填充缺失值
步骤4.3步得到的推断值向量
Figure FDA0004145718900000037
既包含对缺失值的估计,也含有对存在值的推理;为判断填充是否准确,把存在值与推理值的二阶范数作为填充误差,并以此作为损失函数训练模型,以提高模型对缺失值填充的效果;损失函数为:
Figure FDA0004145718900000038
当填充误差未达到预设的阈值时,模型会用推断值更新数值矩阵中的缺失值,并回到步骤2继续训练模型;当填充误差达到阈值,此时模型对缺失值的推断达到最优,通过推断值填充缺失部分,并保留未缺失部分以得到当前时刻的完整数据向量:
Figure FDA0004145718900000041
整合每个患者各时刻经过填充后的数据向量,即能够得到完整的电子医疗记录数据。
CN201911210250.7A 2019-12-02 2019-12-02 电子医疗记录数据的缺失值填充方法 Active CN110957015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911210250.7A CN110957015B (zh) 2019-12-02 2019-12-02 电子医疗记录数据的缺失值填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911210250.7A CN110957015B (zh) 2019-12-02 2019-12-02 电子医疗记录数据的缺失值填充方法

Publications (2)

Publication Number Publication Date
CN110957015A CN110957015A (zh) 2020-04-03
CN110957015B true CN110957015B (zh) 2023-04-28

Family

ID=69979172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911210250.7A Active CN110957015B (zh) 2019-12-02 2019-12-02 电子医疗记录数据的缺失值填充方法

Country Status (1)

Country Link
CN (1) CN110957015B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292820B (zh) * 2020-05-08 2020-08-21 成都金盘电子科大多媒体技术有限公司 医疗信息化数据标准体系快速构建系统、方法及服务器
CN111737463B (zh) * 2020-06-04 2024-02-09 江苏名通信息科技有限公司 大数据缺失值填充方法、装置和计算机可读存储器
CN111860645B (zh) * 2020-07-20 2021-04-13 中科三清科技有限公司 挥发性有机物观测数据中缺省值的修复方法及装置
EP4000523A1 (en) * 2020-11-11 2022-05-25 Cerenion Oy Method of forming modifying data related to data sequence of data frame including electroencephalogram data, processing method of electroencephalogram data and electroencephalogram apparatus
CN112465150A (zh) * 2020-12-02 2021-03-09 南开大学 基于真实数据增强的多元时序数据填充方法
KR102546108B1 (ko) * 2020-12-30 2023-06-22 재단법인 아산사회복지재단 전자의무기록에서의 다변량 결측값 대체 방법
CN113672607A (zh) * 2021-08-19 2021-11-19 吉林大学 医疗时序数据缺失值处理方法
CN113951845B (zh) * 2021-12-01 2022-08-05 中国人民解放军总医院第一医学中心 创伤严重失血伤情预测方法与系统
TWI819436B (zh) * 2021-12-15 2023-10-21 緯創資通股份有限公司 預測模型建構方法、狀態預測方法及其裝置
CN115240863B (zh) * 2022-08-11 2023-05-09 合肥工业大学 一种面向数据缺失场景的阿尔兹海默症分类方法及系统
CN117423467B (zh) * 2023-10-18 2024-04-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2337949A1 (en) * 1999-01-18 2000-07-20 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
CA2846594A1 (en) * 2011-08-26 2013-03-07 Majid Sarrafzadeh Systems and methods for missing data imputation
CN110111901A (zh) * 2019-05-16 2019-08-09 湖南大学 基于rnn神经网络的可迁移病人分类系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788291B2 (en) * 2012-02-23 2014-07-22 Robert Bosch Gmbh System and method for estimation of missing data in a multivariate longitudinal setup
US10592368B2 (en) * 2017-10-26 2020-03-17 International Business Machines Corporation Missing values imputation of sequential data
US11488694B2 (en) * 2018-04-20 2022-11-01 Nec Corporation Method and system for predicting patient outcomes using multi-modal input with missing data modalities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2337949A1 (en) * 1999-01-18 2000-07-20 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
CA2846594A1 (en) * 2011-08-26 2013-03-07 Majid Sarrafzadeh Systems and methods for missing data imputation
CN110111901A (zh) * 2019-05-16 2019-08-09 湖南大学 基于rnn神经网络的可迁移病人分类系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jjiawei Ouyang等."ImputeRNN: Imputing Missing Values in Electronic Medical Records".26th International Conference, DASFAA 2021.2021,第413-428页. *

Also Published As

Publication number Publication date
CN110957015A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110957015B (zh) 电子医疗记录数据的缺失值填充方法
Ambekar et al. Disease risk prediction by using convolutional neural network
WO2021120936A1 (zh) 一种基于多任务学习模型的慢病预测系统
Kansadub et al. Stroke risk prediction model based on demographic data
Sk et al. Coronary Heart Disease Prediction and Classification using Hybrid Machine Learning Algorithms
CN111261282A (zh) 一种基于机器学习的脓毒症早期预测方法
CN111081379B (zh) 一种疾病概率决策方法及其系统
KR101955012B1 (ko) 뇌졸중 예측과 분석 시스템 및 방법
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Liu et al. Clinical time series prediction: Toward a hierarchical dynamical system framework
WO2022166158A1 (zh) 一种基于卷积生存网络的血透并发症长期风险预测系统
CN109817339A (zh) 基于大数据的患者分组方法和装置
CN116598014A (zh) 基于图注意力机制和语言大模型的医疗缺失数据补全方法
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
Khanna et al. An Integrated Approach towards the prediction of Likelihood of Diabetes
CN117034142A (zh) 一种不平衡医疗数据缺失值填充方法及系统
Sudharson et al. Performance analysis of enhanced adaboost framework in multifacet medical dataset
CN114504298B (zh) 基于多源健康感知数据融合的生理特征判别方法及系统
CN109994211A (zh) 一种基于ehr数据的慢性肾脏病恶化风险的建模方法
Angayarkanni Predictive analytics of chronic kidney disease using machine learning algorithm
US11961204B2 (en) State visualization device, state visualization method, and state visualization program
WO2021122345A1 (en) Aortic stenosis classification
Nistal-Nuño Artificial intelligence forecasting mortality at an intensive care unit and comparison to a logistic regression system
Akhtar et al. Data Mining Techniques to Construct a Model: Cardiac Diseases
Ramchand et al. RetainEXT: Enhancing Rare Event Detection and Improving Interpretability of Health Records using Temporal Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant