CN113012808B - 一种健康预测方法 - Google Patents

一种健康预测方法 Download PDF

Info

Publication number
CN113012808B
CN113012808B CN202110405487.1A CN202110405487A CN113012808B CN 113012808 B CN113012808 B CN 113012808B CN 202110405487 A CN202110405487 A CN 202110405487A CN 113012808 B CN113012808 B CN 113012808B
Authority
CN
China
Prior art keywords
medical
interaction
feature
information
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110405487.1A
Other languages
English (en)
Other versions
CN113012808A (zh
Inventor
蔡庆鹏
郑凯平
王伟
姚畅
张美慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110405487.1A priority Critical patent/CN113012808B/zh
Publication of CN113012808A publication Critical patent/CN113012808A/zh
Application granted granted Critical
Publication of CN113012808B publication Critical patent/CN113012808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及一种健康预测方法,属于人工智能数据挖掘技术领域。包括以下步骤:S1获取原始医疗时序特征矩阵X;S2使用特征交互表示方法对xt重新表达为
Figure DDA0003633480210000011
使其包含特征交互信息;S3使用综合信息提取方法提取时序数据序列
Figure DDA0003633480210000012
的综合信息
Figure DDA0003633480210000013
S4使用分类方法对所述
Figure DDA0003633480210000014
进行分类以实现健康预测。本发明能够充分利用医学特征的交互信息,包括功能级交互和时间级交互,从而对医疗时序数据内在相关信息进行更为有效的挖掘,进而实现对用户健康进行更为有效的预测。功能级交互能够有效地描绘出不同的异常模式,从而更好的区分患者不同的健康状态。时间级交互可以更有效的学习患者动态变化的健康状况。通过双向嵌入能够为数字型医学特征生成信息含量更加丰富的嵌入向量表达。

Description

一种健康预测方法
技术领域
本发明涉及一种预测方法,特别涉及一种健康预测方法,属于人工智能技术领域。
背景技术
医疗保健分析旨在通过数据驱动的方法分析各种医疗保健数据,从而帮助医疗保健决策并提供个性化的治疗建议,从而改善患者管理。随着卫生信息化建设的进步和大数据的发展,国际科研工作者对医疗大数据的保存和挖掘研究有了越来越高的重视度和参与度,其中电子健康记录(EHR)是用于医疗保健分析的重要数据源之一。电子健康记录包含了多种形式的信息,比如人口统计信息(如年龄、性别、身高、出入院时间、是否死亡等)、患者的动态医疗信息(如生命体征、化验结果、用药情况等)、生物图像信息(超声波图像、核磁共振检测图像、CT图像等)。但是EHR也存在着一些不可忽视的问题,例如数据时间不规则性,数据异质性,数据嘈杂,数据维度高等。这些问题大大阻碍了从EHR数据挖掘创造价值的过程。为了解决这些问题,医疗研究人员提出了各种深度学习模型来更好地表达患者的病情,从而提高模型的分析性能(如准确率等)。而在医疗保健分析模型的设计中,医学特征之间的交互作用对于反映患者的健康状况至关重要,而现有模型均没能充分的利用医学特征之间的交互作用。
发明内容
本发明的目的在于针对现有技术的上述部分或全部不足,提供一种健康预测方法,包括以下内容:
S1获取原始医疗时序特征矩阵
Figure GDA0003633480190000011
其中t∈{1,2,…,Tt}是时间步长的索引,xt∈R|C|表示对应时间步长t的原始医学特征向量,|C|表示原始医学特征的个数;
S2使用特征交互表示方法对xt重新表达为
Figure GDA0003633480190000012
使其包含特征交互信息,其中t∈{1,2,…,Tt};
作为优选,为加快神经网络训练速度,对所述xt中每个原始医学特征值进行标准化。
作为优选,所述使用特征交互表示方法对xt重新表达为
Figure GDA0003633480190000021
使其包含特征交互信息,具体包括以下内容:
S21将所述xt表示为x;
S22对所述x中第i个医学特征值xi通过嵌入机制生成嵌入向量ei
作为优选,所述嵌入机制为通过下式进行双向嵌入:
Figure GDA0003633480190000022
其中,a和b分别表示预设的前向嵌入表达下限值和后向嵌入表达上限值,
Figure GDA0003633480190000023
是两个嵌入矩阵,
Figure GDA0003633480190000024
是分别对应于Va,Vb的第i个嵌入向量,用于将所述医学特征值转换为向量,e表示嵌入向量的维度,|C|表示所述原始医学特征的个数,ei表示第i个医学特征嵌入向量。
S23通过下式进行不同医学特征之间的交互:
ri,j=ei⊙ej
其中,⊙表示嵌入向量ei和ej的元素积(即两个向量逐元素乘积),ri,j表示第i和j个所述医学特征之间产生的特征交互;
S24通过下式计算ri,j相对于第i个特征的注意力权重:
Figure GDA0003633480190000025
Figure GDA0003633480190000026
其中,
Figure GDA0003633480190000027
是模型需要训练的参数,
Figure GDA0003633480190000028
是Wα的第i行向量,bi是b的第i个元素值,αi,j表示第i个医学特征和第j个医学特征生成的交互相对于第i个医学特征的注意力权重,T表示转置运算;
S25通过下式计算第i个医学特征与其他所有医学特征交互后的交互表示ci
Figure GDA0003633480190000031
S26通过下式获得第i个医学特征的全面表示fi
fi=pTRelu([ei;ci])
其中,
Figure GDA0003633480190000032
是模型需要训练的参数,d是压缩因子;[ei;ci]表示将ei与ci拼接,Relu()表示线性整流函数,T表示转置;
S27通过下式获得所述x的包含特征之间交互信息的全面表达:
Figure GDA0003633480190000033
S3使用综合信息提取方法提取时序数据序列
Figure GDA0003633480190000034
的综合信息;
作为优选,所述综合信息提取方法包括以下内容:
S31对所述
Figure GDA0003633480190000035
中时序数据进行动态建模,表示如下:
Figure GDA0003633480190000036
其中,
Figure GDA0003633480190000037
是处理t个时间步长后得到的输出结果,l是一个预先定义的超参数,表示信息含量的多少,f表示循环神经网络模型;
作为优选,所述f为GRU模型。
S32通过下式对每个时间步长的输出和最后一个时间步长的输出进行交互:
Figure GDA0003633480190000038
其中,⊙表示向量hi
Figure GDA0003633480190000039
的元素积(即两个向量逐元素乘积),
Figure GDA00036334801900000310
表示第i个时间步长输出和最后一个时间步长输出之间的相关作用,i∈{1,2,…,Tt-1};
S33通过下式计算注意力权重:
Figure GDA00036334801900000311
Figure GDA00036334801900000312
其中,
Figure GDA0003633480190000041
是模型需要训练的参数,
Figure GDA0003633480190000042
表示第i个时间步长输出与最后一个时间步长输出之间产生的交互所对应的注意力权重,T表示转置运算;
S34通过下式汇总所有时间步长与最后一个时间步长交互后的总体表示
Figure GDA0003633480190000043
Figure GDA0003633480190000044
S35通过下式对所述
Figure GDA0003633480190000045
进行更加全面地建模
Figure GDA0003633480190000046
Figure GDA0003633480190000047
其中,
Figure GDA0003633480190000048
表示将
Figure GDA0003633480190000049
Figure GDA00036334801900000410
拼接。
S4使用分类方法对所述
Figure GDA00036334801900000411
进行分类以实现健康预测。
作为优选,所述分类方法为二分类,使用Sigmoid激活函数进行健康预测,表述如下:
Figure GDA00036334801900000412
其中
Figure GDA00036334801900000413
bpred是需要训练的模型参数。
另一方面,本发明还提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的一种健康预测方法。
另一方面,本发明还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述的一种健康预测方法。
有益效果
本发明提出的一种健康预测方法,能够充分利用医学特征的交互信息,包括功能级交互和时间级交互,从而对医疗时序数据内在相关信息进行更为有效的挖掘,进而实现对用户健康进行更为有效的预测。功能级交互分别处理各个医学特征从而保留特征的个性,同时又能够让其与交互作用更紧密的结合;因此,该种交互方法能够有效地描绘出不同的异常模式,从而更好的区分患者不同的健康状态。时间级交互可以很好的对时间步长之间的交互进行建模,从而更有效的学习患者动态变化的健康状况,而且这些变化都是因人而异的。通过设计注意力机制,从而能够区分不同交互的重要性。同时,借助该网络,本发明可以提供更全面地表示患者EMR数据的能力、可以获得更好的分析性能并提供细粒度的医学分析结果。通过设计双向嵌入机制,能够为数字型医学特征生成信息含量更加丰富的嵌入向量表达。
附图说明
图1为本发明实施例一所述方法的流程图;
图2为功能级交互结构示意图;
图3为双向嵌入结构示意图;
图4为时间级交互结构示意图;
图5为一位糖尿病患者血糖随时间变化曲线图;
图6为图3患者在第13小时(左)和第35小时(右),患者A的功能级交互的注意力权重(百分比)。以pH值对应的行为例,该行中的值表示处理特征pH时pH与其他特征之间交互作用对应的注意力权重。
图7为存活患者(上图)和非存活患者(下图)的时间级交互作用的注意力权重(百分比),三角形对应的实线表示特定群组的患者随时间变化的平均注意力权重,其余实线表示每位存活患者或非存活患者随时间变化的注意力权重。
具体实施方式
下面结合附图,具体说明本发明的优选实施方式。
对于医疗保健分析应用而言,充分提取时序数据内在关系对于健康预测起着至关重要的作用,本发明就从该角度进行研究致力于提高健康预测效果。
参见附图1,实施例一实现了本发明所述的一种医疗时序数据医学特征交互表示方法,附图1是实施例一方法的流程图,包括以下步骤:
S1获取原始医疗时序特征矩阵
Figure GDA0003633480190000051
其中t∈{1,2,…,Tt}是时间步长(例如一个小时)的索引;xt∈R|C|表示在时间步长t中观察到的|C|个医学特征值(例如化验结果,如血糖、低压、高压、PH值等),|C|表示医学特征的个数。
举例而言,所述xt可能包含血糖值(Glucose)以及其他和糖尿病相关的医学特征(如PH值,乳酸值(Lactate),酮酸值(Keto-acid)等),以及其它医学特征,如血压、血浆HCO3浓度等。所有这些医学特征的总个数为|C|。
S2使用特征交互表示方法对xt重新表达为
Figure GDA0003633480190000061
使其包含特征交互信息,其中t∈{1,2,…,Tt}。
较优的,可以对所述xt中每个原始医学特征值进行标准化。通过数据标准化,能够在训练神经网络过程中加速权重参数的收敛。具体的,可以通过zero-mean标准化过程将第i个医学特征从xi转为xi′,i∈{1,2,…,|C|}。xi为xt中第i个医学特征值,如PH值或乳酸值。
所述特征交互表示方法可以是现有的任何可以提取到不同医学特征之间内在关系的方法,如FM方法(Rendle,S.(2010,December).Factorization machines.In 2010IEEEInternational Conference on Data Mining(pp.995-1000).IEEE.)。
当然,也可以使用功能级特征交互方法,如发明人的专利“一种医疗时序数据医学特征交互表示方法”。我们以xt为例,通过下述过程提取医学特征之间的交互信息,对每个xt,t∈{1,2,…,Tt}重复下述过程,就可以得到具体如下X中每个时间步长的特征交互信息:
S21为后续处理方便,同时因为对每个时间步长的特征向量都要进行下述相同的处理,我们删除表示时间步长的下角标,将所述xt表示为x;
S22对所述x中第i个医学特征值xi通过嵌入机制生成嵌入向量ei
此处,可以使用现有的嵌入机制实现,如基于FM的嵌入机制,也可以说是没有偏差的线性嵌入机制。
较优的,可以使用双向嵌入,如:
将x′i映射到预定下限值a所对应的前向嵌入表达和预定上限值b所对应的后向嵌入表达得到双向嵌入向量ei,其计算公式如下:
Figure GDA0003633480190000062
其中,
Figure GDA0003633480190000063
是两个嵌入矩阵,
Figure GDA0003633480190000064
是两个嵌入向量,它们可以将特征x′i映射到低维的特征表达,而e表示嵌入向量的尺寸大小;
从上述计算公式中,我们可以很容易发现该双向嵌入计算保留了线性嵌入机制的优点:(i)相同医学特征的不同特征值会被映射到不同的嵌入向量,(ii)具有相同医学特征的两个接近值将映射到相似的嵌入向量中。
上述过程如图3所示。
S23计算不同医学特征之间产生的特征交互;
借助双向嵌入得到的医学特征的嵌入向量,我们可以利用更有意义的嵌入向量来丰富每个医学特征。然后,基于更加全面的医学特征表示,我们旨在显示地建模它们之间的功能级交互,并且能够有效的区分不同功能级交互的重要性。
在特征交互表达上,我们利用元素积来对特征交互进行建模,以ri,j来衡量第i个医学特征和第j个医学特征之间产生的特征交互,其公式如下:
ri,j=ei⊙ej
即ri,j与ei维度相同,其第i个元素值为ei和ej的第i个元素值的乘积。
S24通过注意力神经网络计算注意力权重;
我们注意到,不同的特征交互应具有不同的重要性,因此应分配不同的注意力权重。为了实现此目标,我们设计了一个注意力神经网络,以学习每对医学特征之间相互作用的重要性权重,这有助于进行更细粒度的分析。
具体来说,我们提出的注意力神经网络计算注意力权重α的工作原理如下:
Figure GDA0003633480190000071
Figure GDA0003633480190000072
其中,
Figure GDA0003633480190000073
是模型所需要训练的参数,
Figure GDA0003633480190000074
是Wα的第i列向量,bi是b的第i个元素值。表示第i个医学特征和第j个医学特征生成的交互相对于第i个医学特征的注意力权重。α′i,j
Figure GDA0003633480190000075
S25特征交互聚合;
根据前面计算得到的注意力权重αi,j,我们可以将第i个医学特征与其他所有医学特征产生的交互进行聚合,从而得到该特征产生的交互的全面表示ci
Figure GDA0003633480190000076
S26全面特征表示;
我们将原始特征嵌入向量ei与功能级交互表达ci拼接起来,从而丰富原始第i个医学特征得到更加全面的特征表示。同时,我们通过线性压缩将此特征表示转换到低维空间fi,目的是在降低模型复杂度,同时提升RNN对于时间建模的处理速度。
fi=pTRelu([ei;ci])
其中,
Figure GDA0003633480190000081
是模型的训练参数。d是预定义的超参数,表示最终特征表示的向量大小,我们将其定义为压缩因子。压缩因子越大,可以给特征保留更多信息,但是与此同时,模型的参数大小也将大大增加。最后得到的d维向量fi即可全面表达第i个原始医学特征及其与其它医学特征交互的所有信息。
S27对所有医学特征的全面特征表示进行拼接得到所述原始医学特征向量x的包含特征之间交互信息的全面表达;
Figure GDA0003633480190000082
通过上述过程也将|C|维原始医学特征向量扩展为d*|C|维,但其中却包含了更多的信息。对于每个医学特征,本发明分别对其进行处理以保留特征的个性,并结合其自身与所有其他特征之间的相互作用以增强其区分各种异常模式的能力。因此,与以粗粒度方式合并交互的FM技术方案相比,在我们的功能级交互计算中,每个医学特征都能够和其与其他所有医学特征产生的交互更紧密地结合,从而获得更加丰富的特征表示,从而为后续的机器学习过程提供了更加精确的特征表示。
S3使用综合信息提取方法提取时序数据序列
Figure GDA0003633480190000083
的综合信息;
所述综合信息提取方法可以是现有的任何可以挖掘到具有时间序列属性的数据内在信息的方法,如RNN方法(Sutskever,I.,Vinyals,O.,&Le,Q.V.(2014).Sequence tosequence learning with neural networks.arXiv preprint arXiv:1409.3215.)。
当然,也可以使用时间级特征交互方法,如发明人的专利“一种医疗时序数据综合信息提取方法”,通过下述过程提取不同时间步长医学特征之间的交互信息后的综合信息,如图4所示,具体如下:
S31对所述
Figure GDA0003633480190000084
中时序数据进行动态建模,表示如下:
Figure GDA0003633480190000085
其中,
Figure GDA0003633480190000091
是处理t个时间步长后得到的输出结果,l是一个预先定义的超参数,表示信息含量的多少,f表示循环神经网络模型;
循环神经网络模型是能够递归总结先前所有步长输入信息的深度神经网络,如RNN模型,较优的,所述f为GRU模型。循环神经网络模型在对时间序列的建模上具有明显的优势。考虑到信息随着时间的流逝而会不断的被更新,一些变种循环神经网络模型(如GRU,LSTM等)增加了多个门控机制来选择性的遗忘和更新时序信息。我们在此选择GRU模型来对时间序列进行建模,因为相比于LSTM模型,GRU模型已经被多次证明在减少参数数量的同时,能够保证效果与LSTM相近。在GRU中,每个时间步长的影响会随着时间而衰减。因此,最后一个时间步长理论上总结了先前所有时间步长的输入信息,并且能够作为下游任务的最终表示形式。但是文献(Ma,F.,Chitta,R.,Zhou,J.,You,Q.,Sun,T.,&Gao,J.(2017,August).Dipole:Diagnosis prediction in healthcare via attention-basedbidirectional recurrent neural networks.In Proceedings of the 23rd ACM SIGKDDinternational conference on knowledge discovery and data mining(pp.1903-1911).)证明了尽快最后一个时间步长的输出拥有上述优势,但是仍然不能充分的表示患者的健康状况。考虑到最后一个时间步长输出的优势,我们致力于研究该输出与之前所有时间步长输出之间产生的相互作用。
S32采用两个向量的元素积来显式地对时间级交互si,T进行建模,如下式:
Figure GDA0003633480190000092
其中,⊙表示向量hi
Figure GDA0003633480190000093
的元素积(即两个向量逐元素乘积),
Figure GDA0003633480190000094
表示第i个时间步长输出和最后一个时间步长输出之间的相关作用,i∈{1,2,…,Tt-1};
S33注意力权重:
为了更专注于患者的几个关键时间步长,设计一个注意力机制来为不同的交互作用计算不同的注意力权重,其计算公式如下:
Figure GDA0003633480190000095
Figure GDA0003633480190000096
其中,
Figure GDA0003633480190000097
是模型需要训练的参数,
Figure GDA0003633480190000098
表示第i个时间步长输出与最后一个时间步长输出之间产生的交互所对应的注意力权重,T表示转置运算;
S34汇总所有时间步长与最后一个时间步长交互后的总体表示
Figure GDA0003633480190000101
利用S4获得的注意力权重β,可以汇总时间级别的交互作用,然后生成总体表示
Figure GDA0003633480190000102
以描述患者的动态健康状况,其计算公式如下:
Figure GDA0003633480190000103
S35全面建模患者的健康状况:
通过对最后一个时间步长的输出和时间级交互表达进行拼接,对患者健康状况更加全面地建模
Figure GDA0003633480190000104
其计算公式如下:
Figure GDA0003633480190000105
其中,
Figure GDA0003633480190000106
表示将
Figure GDA0003633480190000107
Figure GDA0003633480190000108
拼接。
S4使用分类方法对所述
Figure GDA0003633480190000109
进行分类以实现健康预测。
基于时间级交互计算得到的全面信息表达
Figure GDA00036334801900001010
我们可以执行不同的下游预测任务。以二分类预测为例,我们使用Sigmoid激活函数来进行模型预测:
Figure GDA00036334801900001011
其中
Figure GDA00036334801900001012
bpred是需要训练的模型参数。
当然,不限于二分类,根据实际应用场景,可以进行如多分类等预测任务。
试验结果
本发明应用上述方法在两个真实世界的公共临床数据集PhysioNet2012数据集(Goldberger,A.L.,Amaral,L.A.,Glass,L.,Hausdorff,J.M.,Ivanov,P.C.,Mark,R.G.,...&Stanley,H.E.(2000).PhysioBank,PhysioToolkit,and PhysioNet:componentsof a new research resource for complex physiologic signals.circulation,101(23),e215-e220.)和MIMIC-III数据集(Johnson,A.E.,Pollard,T.J.,Shen,L.,Li-Wei,H.L.,Feng,M.,Ghassemi,M.,...&Mark,R.G.(2016).MIMIC-III,a freely accessiblecritical care database.Scientific data,3(1),1-9.)中进行了评估。特征提取应用上述实施例方法,对时间建模的过程我们采用带有门控机制的GRU方法,使用二进制交叉熵作为目标函数,为所有患者计算使用二进制交叉熵作为目标函数,为所有患者计算真实样本标签y和预测样本标签
Figure GDA0003633480190000111
之间的损失:
Figure GDA0003633480190000112
其中N是训练样本数量,使用反向传播算法结合Adam优化器来训练样本标签y和预测样本标签
Figure GDA0003633480190000113
之间的损失。
在这两个数据集中,我们选用院内死亡率预测任务来为本发明和基准模型进行评估。该任务是根据入院后48小时内收集的医学记录来预测患者是否会在医院内死亡。我们首先在两个数据集中进行数据标准化过程,然后将样本分为80%:10%:10%来分别作为训练集,验证集和测试集。
在验证集中学习了最佳性能模型后,我们报告该模型在测试集上的结果,包括二进制交叉熵损失(BCE损失),接收者操作特征曲线下的面积(AUC-ROC得分)以及精确召回曲线下的面积(AUC-PR得分)。此外,我们对每个模型进行了五次实验以报告实验结果。
用于与本发明对比的基准模型如下:
·线性回归模型(LR):LR求出时间序列数据中每个医学特征的平均值并以此作为输入。此类输入也用于Xgboost,FM和AFM中;
·Xgboost模型:Xgboost是一种可伸缩的端到端树增强算法,可以很好地处理缺失率较高的数据;
·FM:与LR相比,FM使用了线性嵌入机制丰富了特征信息,并且能够捕获了特征之间的交互作用;
·AFM:与FM相比,AFM增加了注意力权重,以区分特征交互的重要性;
·GRU:GRU是一种广泛采用的基于RNN的模型,可以很好地处理时间序列数据;
·SAnD:SAnD采用带有遮罩的自我注意机制来对时间序列数据进行建模,并且使用密集插值策略和位置编码来处理时间顺序;
·RETAIN:RETAIN使用两个逆序的RNN模型同时学习访问级别和变量级别的注意力权重,并且提高了模型的可解释性;
·Dipole:Dipole以双向GRU模型为核心,设计了三种不同的注意力机制(即Dipolel,Dipoleg,Dipolec)来更好地挖掘时间上的信息;
·ConCare:ConCare对每个医学特征都使用单独的GRU模型进行建模,并且该模型还通过自我关注机制将人口统计和这些时序数据进行融合,从而生成更加全面的表达。
试验结果如表1所示:
我们用EDUTEM表示本发明的优选案例(包括双向嵌入、功能级交互、时间级交互),为了区别实施例一双向嵌入、功能级交互、时间级交互的有效性,使用如下符号表示其中涉及的EDUTEM模型变体:
·EDUTEM-T:该模型删除了功能级交互,从而验证时间级交互的有效性;
·EDUTEM-Fbi:该模型保留了功能级交互,但是去除了时间级交互。此外,该模型采用了我们提出的双向嵌入方法;
·EDUTEM-Ffm:该模型结构与EDUTEM-Fbi相似,但是它应用了基于FM的嵌入机制(即没有偏差的线性嵌入机制)。
表1 Physionet2012数据集和MIMIC-III数据集上的院内死亡率预测任务的BCE损失,AUC-ROC得分和AUC-PR得分(平均值±标准差)
Figure GDA0003633480190000121
从表中可以看出,本发明方法在两个数据集中均表现最佳。与在Physionet2012数据集和MIMIC-III数据集上最具竞争力的基准模型相比,EDUTEM模型在AUC-PR上分别有2.54%和3.40%的提升。所有指标都得到了提升进一步证实了EDUTEM模型的有效性。
EDUTEM-T的出色性能证实,时间级别的交互对于描绘患者的健康状况更为全面至关重要。
此外,EDUTEM-Fbi的性能优于EDUTEM-T,这表明我们可以使用医学特征与其他医学特征之间产生的交互作用来生成更加全面的医学特征表达,并且这种功能级别的交互比时间级别对预测分析的贡献更大。此外,就所有评估指标而言,EDUTEM-Fbi的性能也优于EDUTEM-Ffm。这证实了我们提出的双向嵌入计算模块的有效性,即我们提出的新颖的双向嵌入计算模块更适合于EMR数据中的数字型医学特征;并且,本发明方法对医学特征的表示也更加充分。
为了说明本发明方法有效性的原理,我们研究了一位具有DLA的并发症的糖尿病患者A。如图5的曲线所示,作为糖尿病患者,患者A在10小时后出现了极高的血糖值(Glucose value)。从这个数字可以明显看出,随着血糖的不断增加,一些密切相关的医学特征将吸引更多的注意力,例如乳酸(Lactate),心率(HR),吸入氧气的比例(FiO2)。但是,相同的血糖变化不会对与血糖弱相关的一些医学特征(例如白细胞(WBC)和血细胞比容(HCT))表现出明显的影响,并且它们的注意力权重(Attention weights)也有所降低。
一方面,借助于功能级交互的解释结果,EDUTEM能够根据医学特征之间的交互来描绘不同的异常模式,从而生成更全面的表示。另一方面,EDUTEM可以揭示医学特征之间的潜在关系,从而为医学研究的发展提供有意义的医学见解。
对于功能级交互的可解释性,我们深入研究患者A的更多细节。我们在表2中显示了患者A的部分重要医学特征,包括FiO2,血糖,碳酸氢盐(HCO3),HCT,HR,乳酸,平均动脉血压(MAP),温度(Temp)和pH。由于篇幅所限,我们仅以两个时间步长说明这些医学特征,即第13小时和第35小时,分别对应于血糖值异常高和血糖达到稳定的时间。
表2患者A的部分重要医学特征
Figure GDA0003633480190000131
此外,我们在图6的这两个时间步骤中说明了这些涉及的医学特征的特征级交互的注意权重。根据医学文献(如English,P.,&Williams,G.(2004).Hyperglycaemic crisesand lactic acidosis in diabetes mellitus.Postgraduate medical journal,80(943),253-261.),我们可以知道DLA是由于不同原因导致血液乳酸增加和PH值降低(<7.35)的异常生化变化所引起的急性糖尿病并发症。在临床实践中,临床医生将对DLA患者进行一些辅助检查,以更好地预测病情,因为DLA患者通常具有低HCO3,体温低,深而大的呼吸以及低血压等症状。所有上述症状均在患者A中观察到,这证实了DLA的发生并揭示了患者健康状况的恶化。此外,从图6中,我们发现在功能级交互计算中学习的注意力权重与上述医学文献高度一致。血糖和乳酸都更加关注这些密切相关且异常的医学特征,并学习到该异常模式。此外,一些与DLA不相关的医学特征(例如HCT)往往对应相对较低的注意力权重。
另一个发现是,相同的特征和特征产生的交互作用在两个特征的表达中具有不同的注意力权重。例如,在第13小时,乳酸值高是患者A pH值低的主要原因,这反映为pH相互作用中的注意力重心较高。但是,对于乳酸,功能级交互计算会更加注意比pH值更重要的其他异常特征,比如HCO3,血压等。在ICU中治疗大约一天(即第35小时)后,血糖恢复到到正常水平,这导致注意权重在其他医学特征(包括pH)中的分配更加平均。
从此示例中,我们发现,可以通过与其他医学特征的交互来丰富某医学特征表示,而具有异常值的医学特征将在与其紧密相关的医学特征的交互中引起更高的关注度(即注意力权重)。此外,在患者住院期间,医学特征值的改变可导致相应注意权重的改变,其表示着患者动态的健康状况。基于该功能级交互计算的可解释性分析,临床医生可以及时发现异常,因此可以迅速对患者管理做出个性化的临床决策。此外,通过本发明功能级交互计算学习到的这种注意力权重有能力能够揭示特征之间的一些潜在的并且尚未被发现的联系,这也为推进医学研究提供了机会。
对于时间级交互的可解释性,我们首先将所有患者样本分为两组,即生存患者和非生存患者,然后在时间级别上分析两组患者的解释结果。我们在图7中说明了最后一个时间步长和之前所有的时间步长(即47小时)之间的交互的注意权重。从这两条实线中,我们发现在两组实验组中,时间级交互通常都更加关注患者的后期状况,因为由于时间顺序,这些时间步长上的状况通常更接近患者的最终健康状况。此外,与存活患者相比,非存活患者的病情更加多样且不稳定,并且该模块可以给予在开始的或中期的几个时间步骤更多的注意力权重,这些时间步骤对于这些患者而言更为关键。在这些时间步骤中,医疗电子记录通常会比较丰富,因此也经常会包含一些反映健康状况突然变化的异常值能够表示患者健康状况的突然变化。此外,患者之间学习到的注意权重互不相同的现象证明我们的时间级交互可以有效地识别与患者状况密切相关的时间步长。
因此,通过时间级交互,EDUTEM可以突出关键的时间步长,作为临床医生的辅助信息,以促进患者状况监测和患者管理。
简而言之,在功能级交互和时间级交互的医学意义上的可解释性分析支持下,EDUTEM可以为临床医生提供有价值的辅助信息,分析患者的病情,从而促进个性化的及时的治疗。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称并不构成对该单元本身的限定。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种健康预测方法,其特征在于,包括以下步骤:
S1获取原始医疗时序特征矩阵
Figure FDA0003842401080000011
其中t∈{1,2,…,Tt}是时间步长的索引,xt∈R|C|表示对应时间步长t的原始医学特征向量,|C|表示原始医学特征的个数;
S2使用特征交互表示方法对xt重新表达为
Figure FDA0003842401080000012
使其包含特征交互信息,其中t∈{1,2,…,Tt};
所述特征交互表示方法为可以提取到不同医学特征之间内在关系的方法;
S3使用综合信息提取方法提取时序数据序列
Figure FDA0003842401080000013
的综合信息
Figure FDA0003842401080000014
所述综合信息提取方法是可以挖掘到具有时间序列属性的数据内在信息的方法,即提取不同时间步长医学特征之间的交互信息的方法;
S4使用分类方法对所述
Figure FDA0003842401080000015
进行分类以实现健康预测。
2.根据权利要求1所述的方法,其特征在于,对所述xt中每个原始医学特征值进行标准化。
3.根据权利要求2所述的方法,其特征在于,所述使用特征交互表示方法对xt重新表达为
Figure FDA0003842401080000016
使其包含特征交互信息,具体包括以下内容:
S21将所述xt表示为x;
S22对所述x中第i个医学特征值xi通过嵌入机制生成嵌入向量ei
S23通过下式进行不同医学特征之间的交互:
ri,j=ei⊙ej
其中,⊙表示嵌入向量ei和ej的元素积,ri,j表示第i和j个所述医学特征之间产生的特征交互;
S24通过下式计算ri,j相对于第i个特征的注意力权重:
Figure FDA0003842401080000017
Figure FDA0003842401080000021
其中,
Figure FDA0003842401080000022
是模型需要训练的参数,
Figure FDA0003842401080000023
是Wα的第i行向量,|C|表示所述原始医学特征的个数,e表示嵌入向量的维度,bi是b的第i个元素值,αi,j表示第i个医学特征和第j个医学特征生成的交互相对于第i个医学特征的注意力权重,T表示转置运算;
S25通过下式计算第i个医学特征与其他所有医学特征交互后的交互表示ci
Figure FDA0003842401080000024
S26通过下式获得第i个医学特征的全面表示fi
fi=pTRelu([ei;ci])
其中,
Figure FDA0003842401080000025
是模型需要训练的参数,d是压缩因子;[ei;ci]表示将ei与ci拼接,Relu()表示线性整流函数,T表示转置;
S27通过下式获得所述x的包含特征之间交互信息的全面表达:
Figure FDA0003842401080000026
4.根据权利要求3所述的方法,其特征在于,所述嵌入机制为通过下式进行双向嵌入:
Figure FDA0003842401080000027
其中,a和b分别表示预设的前向嵌入表达下限值和后向嵌入表达上限值,
Figure FDA0003842401080000028
是两个嵌入矩阵,
Figure FDA0003842401080000029
是分别对应于Va,Vb的第i个嵌入向量,用于将所述医学特征值转换为向量,e表示嵌入向量的维度,|C|表示所述原始医学特征的个数,ei表示第i个医学特征嵌入向量。
5.根据权利要求1-4任一所述的方法,其特征在于,所述综合信息提取方法包括以下内容:
S31对所述
Figure FDA00038424010800000210
中时序数据进行动态建模,表示如下:
Figure FDA0003842401080000031
其中,
Figure FDA0003842401080000032
是处理t个时间步长后得到的输出结果,l是一个预先定义的超参数,表示信息含量的多少,f表示循环神经网络模型;
S32通过下式对每个时间步长的输出和最后一个时间步长的输出进行交互:
Figure FDA0003842401080000033
其中,⊙表示向量hi
Figure FDA0003842401080000034
的元素积,
Figure FDA0003842401080000035
表示第i个时间步长输出和最后一个时间步长输出之间的相关作用,i∈{1,2,…,Tt-1};
S33通过下式计算注意力权重:
Figure FDA0003842401080000036
Figure FDA0003842401080000037
其中,
Figure FDA0003842401080000038
是模型需要训练的参数,
Figure FDA0003842401080000039
表示第i个时间步长输出与最后一个时间步长输出之间产生的交互所对应的注意力权重,T表示转置运算;
S34通过下式汇总所有时间步长与最后一个时间步长交互后的总体表示
Figure FDA00038424010800000310
Figure FDA00038424010800000311
S35通过下式对所述
Figure FDA00038424010800000312
进行更加全面地建模
Figure FDA00038424010800000313
Figure FDA00038424010800000314
其中,
Figure FDA00038424010800000315
表示将
Figure FDA00038424010800000316
Figure FDA00038424010800000317
拼接。
6.根据权利要求5所述的方法,其特征在于,所述f为GRU模型。
7.根据权利要求6所述的方法,其特征在于,所述分类方法为二分类,使用Sigmoid激活函数进行健康预测,表述如下:
Figure FDA00038424010800000318
其中
Figure FDA00038424010800000319
是需要训练的模型参数。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一权利要求1-7所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述任一权利要求1-7所述的方法。
CN202110405487.1A 2021-04-15 2021-04-15 一种健康预测方法 Active CN113012808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110405487.1A CN113012808B (zh) 2021-04-15 2021-04-15 一种健康预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110405487.1A CN113012808B (zh) 2021-04-15 2021-04-15 一种健康预测方法

Publications (2)

Publication Number Publication Date
CN113012808A CN113012808A (zh) 2021-06-22
CN113012808B true CN113012808B (zh) 2022-11-01

Family

ID=76389374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110405487.1A Active CN113012808B (zh) 2021-04-15 2021-04-15 一种健康预测方法

Country Status (1)

Country Link
CN (1) CN113012808B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258276A (zh) * 2023-05-06 2023-06-13 中国能源建设集团湖南省电力设计院有限公司 一种基于饱和碳排放密度的碳排放总量预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200152332A1 (en) * 2017-06-12 2020-05-14 Koninklijke Philips N.V. Systems and methods for dynamic monitoring of patient conditions and prediction of adverse events
CN111370122B (zh) * 2020-02-27 2023-12-19 西安交通大学 一种基于知识指导的时序数据风险预测方法、系统及其应用
CN111798954A (zh) * 2020-06-11 2020-10-20 西北工业大学 基于时间注意力机制和图卷积网络的药物组合推荐方法

Also Published As

Publication number Publication date
CN113012808A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Wang et al. Interpretable prediction of 3-year all-cause mortality in patients with heart failure caused by coronary heart disease based on machine learning and SHAP
CN111492437A (zh) 支持医学决策的方法和系统
Dyagilev et al. Learning (predictive) risk scores in the presence of censoring due to interventions
Wei et al. Risk assessment of cardiovascular disease based on SOLSSA-CatBoost model
Yang et al. Predicting coronary heart disease using an improved LightGBM model: Performance analysis and comparison
Juraev et al. Multilayer dynamic ensemble model for intensive care unit mortality prediction of neonate patients
Popkes et al. Interpretable outcome prediction with sparse Bayesian neural networks in intensive care
Overweg et al. Interpretable outcome prediction with sparse Bayesian neural networks in intensive care
Biswas et al. Introduction to supervised machine learning
CN113012808B (zh) 一种健康预测方法
Mansouri et al. Predicting hospital length of stay of neonates admitted to the NICU using data mining techniques
Srimedha et al. A comprehensive machine learning based pipeline for an accurate early prediction of sepsis in ICU
Strickler et al. Exploring a global interpretation mechanism for deep learning networks when predicting sepsis
CN113053530B (zh) 一种医疗时序数据综合信息提取方法
CN112951417B (zh) 一种医疗时序数据医学特征交互表示方法
Wang et al. Multimodal Risk Prediction with Physiological Signals, Medical Images and Clinical Notes
Majhi et al. Wavelet based ensemble models for early mortality prediction using imbalance ICU big data
Sheikhalishahi Machine learning applications in Intensive Care Unit
Zou et al. LGTRL-DE: Local and Global Temporal Representation Learning with Demographic Embedding for in-hospital mortality prediction
Hüser Machine Learning Approaches for Patient Monitoring in the intensive care unit
Zhang EveryMoment Counts: Deep Variability Reasoning in EHR Data
Saripalli Scalable and Data Efficient Deep Reinforcement Learning Methods for Healthcare Applications
Daddala et al. Cardiovascular Disease Prediction: Employing Extra Tree Classifier-Based Feature Selection and Optimized RNN with Artificial Bee Colony.
Inibhunu A method to detect and represent temporal patterns from time series data and its application for analysis of physiological data streams
Arora et al. Mixed-Integer Projections for Automated Data Correction of EMRs Improve Predictions of Sepsis among Hospitalized Patients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant