CN112951417B

CN112951417B - 一种医疗时序数据医学特征交互表示方法

Info

Publication number: CN112951417B
Application number: CN202110405508.XA
Authority: CN
Inventors: 蔡庆鹏; 郑凯平; 王伟; 姚畅; 张美慧
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-06-28
Anticipated expiration: 2041-04-15
Also published as: CN112951417A

Abstract

本发明涉及一种医疗时序数据医学特征交互表示方法，属于人工智能数据处理技术领域。包括以下步骤：S1获取原始医学特征向量x；S2对x中第i个医学特征值x_i通过嵌入机制生成嵌入向量e_i；S3对不同医学特征的嵌入向量做交互r_i，j；S4对不同交互相对于其特征分配注意力权重α_i，j；S5将第i个医学特征与其他所有医学特征交互进行乘加后获得其交互表示c_i；S6将e_i与c_i拼接后做线性压缩获得第i个医学特征的全面表示f_i；S7将所有特征的全面表示拼接后得到x的全面表达。本发明能够分别处理各个医学特征从而保留特征的个性，同时又能够让其与交互作用更紧密的结合；因此，本发明方法能够有效地描绘出不同的异常模式，从而更好的区分患者不同的健康状态。

Description

一种医疗时序数据医学特征交互表示方法

技术领域

本发明涉及一种数据处理方法，特别涉及一种医疗时序数据医学特征交互表示方法，属于人工智能数据处理技术领域。

背景技术

医疗保健分析旨在通过数据驱动的方法分析各种医疗保健数据，从而帮助医疗保健决策并提供个性化的治疗建议，从而改善患者管理。随着卫生信息化建设的进步和大数据的发展，国际科研工作者对医疗大数据的保存和挖掘研究有了越来越高的重视度和参与度，其中电子健康记录(EHR)是用于医疗保健分析的重要数据源之一。电子健康记录包含了多种形式的信息，比如人口统计信息(如年龄、性别、身高、出入院时间、是否死亡等)、患者的动态医疗信息(如生命体征、化验结果、用药情况等)、生物图像信息(超声波图像、核磁共振检测图像、CT图像等)。但是EHR也存在着一些不可忽视的问题，例如数据时间不规则性，数据异质性，数据嘈杂，数据维度高等。这些问题大大阻碍了从EHR数据挖掘创造价值的过程。为了解决这些问题，医疗研究人员提出了各种深度学习模型来更好地表达患者的病情，从而提高模型的分析性能(如准确率等)。而在医疗保健分析模型的设计中，医学特征之间的交互作用对于反映患者的健康状况至关重要。我们以糖尿病为例。糖尿病已经成为了全世界最严重的代谢疾病之一。

为了防止该糖尿病患者的病情继续恶化，临床医生总会经常检查该患者的血糖值(Glucose)以及其他和糖尿病相关的医学特征(如PH值，乳酸值(Lactate)，酮酸值(Keto-acid)等)，从而判断患者是否出现严重并发症。观测过程中，患者的血糖值从t₂开始持续增长，此时临床医生将立即对患者进行相关医学检测并根据不同的症状来判断是否出现并发症，比如普通糖尿病患者只患有高血糖症状。出现糖尿病酮酸性中毒(DKA)并发症的糖尿病患者会在高血糖的同时出现低PH值和高酮酸值的症状。此外，出现糖尿病如酸性中毒(DLA)的糖尿病患者则是会同时出现高血糖、低PH值、高乳酸值的症状。与普通的糖尿病患者相比，拥有这两种急性并发症的患者健康状况更差，而且DLA急性并发症说明了患者的病情已经严重恶化，并且死亡率较高。从中，我们可以发现相同的异常值可以指示不同的健康状况，而这可以由其他密切相关的医学特征(如PH值，酮酸值，乳酸值)反映出来。因此，医学特征之间的相互作用可以详细描述不同的异常模式，从而可以为医学特征生成更多的信息。

关于交互信息的表达，一般使用FM模型(Rendle,S.(2010,December).Factorization machines.In 2010IEEE International Conference on Data Mining(pp.995-1000).IEEE.)，但将其用于拥有时间序列属性的EHR数据是一件困难的事情，原因有以下三个：

1.基于FM的模型将信息简单地分为两个部分，即原始特征部分和特征交互部分。这种粗力度的划分无法给原始特征及其对应的特征交互之间建立紧密的联系；

2.这些模型没有考虑EHR数据的时间序列属性，仅仅使用两个单独的标量来作为每个时刻内医疗数据的最终表示不足以捕获特定时刻内医学特征之间的复杂关系；

3.虽然基于FM的嵌入式表达对分类型特征的医学特征(如诊断代码，治疗代码等)非常有效。但是对于数值型特征的医学特征(如生命体征、化验结果等)，该线性的嵌入式表达具有不可避免的局限性：首先，嵌入向量与特征的比例有很强的关系，因此有必要对所有医学特征进行标准化。但是，具有较小值的特征仍将映射到具有较小比例的嵌入向量(即，方差较小的向量)，更具体地说，具有零值的特征将被映射到零嵌入向量，但是零向量的信息容量十分有限，并在后续计算中几乎没有影响作用。在医学上，化验结果等医学特征在标准化过程后的零值往往表示该医学特征情况正常，并且该信息在分析患者的健康状况也至关重要。此外，具有相反值的特征会被嵌入至相反向量(即具有相同大小但是方向相反的向量)，相反向量的这种表达差异性小从而在捕获异常模式的能力方面相对较弱。

发明内容

本发明的目的在于针对现有技术的上述部分或全部不足，提供一种医疗时序数据医学特征交互表示方法，包括以下内容：

S1获取原始医学特征向量x；

作为优选，为加快神经网络训练速度，对所述x中每个原始医学特征值进行标准化。

S2对所述x中第i个医学特征值x_i通过嵌入机制生成嵌入向量e_i；

作为优选，所述嵌入机制为通过下式进行双向嵌入：

其中，a和b分别表示预设的下限值和上限值，V^a,

是两个嵌入矩阵，

是分别对应于V^a,V^b的第i个嵌入向量，用于将所述医学特征值转换为向量，e表示嵌入向量的维度，|C|表示所述原始医学特征的个数，e_i表示第i个医学特征嵌入向量。

S3通过下式进行不同医学特征之间的交互：

r_i,j＝e_i⊙e_j

其中，⊙表示向量e_i和e_j的元素积(即两个向量逐元素乘积)，r_i,j表示第i和j个所述医学特征之间产生的特征交互；

S4通过下式计算r_i,j相对于第i个特征的注意力权重：

其中，

是模型需要训练的参数，

是W^α的第i列向量，b_i是b的第i个元素值，α_i,j表示第i个医学特征和第j个医学特征生成的交互相对于第i个医学特征的注意力权重，T表示转置运算；

S5通过下式计算第i个医学特征与其他所有医学特征交互后的交互表示c_i：

S6通过下式获得第i个医学特征的全面表示f_i：

f_i＝p^TRelu([e_i；c_i])

其中，

是模型需要训练的参数，d是压缩因子；[e_i；c_i]表示将e_i与c_i拼接，Relu()表示线性整流函数，也是神经网络的激活函数，T表示转置；

S7通过下式获得所述x的包含特征之间交互信息的全面表达：

另一方面，本发明还提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的一种医疗时序数据医学特征交互表示方法。

另一方面，本发明还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使该计算机执行前述的一种医疗时序数据医学特征交互表示方法。

有益效果

本发明提出的一种医疗时序数据医学特征交互表示方法，能够分别处理各个医学特征从而保留特征的个性，同时又能够让其与交互作用更紧密的结合；因此，本发明方法能够有效地描绘出不同的异常模式，从而更好的区分患者不同的健康状态。

附图说明

图1为本发明实施例一所述方法的流程图；

图2为双向嵌入示意图；

图3中红线表示一位糖尿病患者A的血糖值(标准化后)随时间变化曲线图。并且为了说明相互作用对葡萄糖的重要性，我们使用其他颜色的线表示葡萄糖与部分医学特征之间相互作用的注意权重。

图4为图3患者在第13小时(左)和第35小时(右)，患者A的功能级交互的注意力权重(百分比)。以pH值对应的行为例，该行中的值表示处理特征pH时，pH与其他特征之间交互作用对应的注意力权重。

具体实施方式

下面结合附图，具体说明本发明的优选实施方式。

对于医疗保健分析应用而言，其特征的表达对于分析结果的正确与否起着至关重要的作用，而众所周知，对于不同的病症及其严重程度，可以由不同医学特征(如生化检验结果)本身及其相互之间的影响关系表征，因此，只有充分提取医学特征及其相互作用关系的特征表达才能满足医疗保健分析应用，从而满足人们日益增长的健康预测需求，并根据预测结果及早做好应对措施准备。

下面先做一下符号约定：

本文将长度为T的医学特征C的多元时间序列EMR数据表示为

其中t∈{1,2,…,T}是时间步长(例如一个小时)的索引，x_t∈R^|C|表示在时间步长t中观察到的|C|个医学特征值(例如化验结果，如血糖、血压等)，|C|表示医学特征的个数。后面，我们就以x_t作为讨论对象，研究其在医疗保健分析中的特征表达，由于时间步长与本文的发明内容关系不大，后续将其删除，使用时只要通过下述方法对时序数据每一个时间步长的向量进行表示得到包含每个元素自身及其相互作用关系特点的特征表达即可。

参见附图1，实施例一实现了本发明所述的一种医疗时序数据医学特征交互表示方法，附图1是实施例一方法的流程图，为表达方便，我们将|C|个医学特征在图中表示为n，包括以下步骤：

S1获取原始医学特征向量x；

举例而言，所述x可能包含血糖值(Glucose)以及其他和糖尿病相关的医学特征(如PH值，乳酸值(Lactate)，酮酸值(Keto-acid)等)，以及其它医学特征，如血压、血浆HCO3浓度等。

较优的，可以对所述x中每个原始医学特征值进行标准化。通过数据标准化，能够在训练神经网络过程中加速权重参数的收敛。具体的，可以通过zero-mean标准化过程将第i个医学特征从x_i转为x_i′，i∈{1,2,…,|C|}。

S2对x中第i个医学特征值x_i通过嵌入机制生成嵌入向量e_i；

此处，可以使用现有的嵌入机制实现，如基于FM的嵌入机制，也可以说是没有偏差的线性嵌入机制。

较优的，可以使用双向嵌入，如：

将x′_i映射到预定下限值a所对应的前向嵌入表达和预定上限值b所对应的后向嵌入表达得到双向嵌入向量e_i，其计算公式如下：

其中，V^a,

是两个嵌入矩阵，

是第i个医学特征对应的嵌入向量，它们可以将特征x′_i映射到低维的特征表达，而e表示嵌入向量的尺寸大小；

从上述计算公式中，我们可以很容易发现该双向嵌入计算保留了线性嵌入机制的优点：(i)相同医学特征的不同特征值会被映射到不同的嵌入向量，(ii)具有相同医学特征的两个接近值将映射到相似的嵌入向量中。

上述过程如图2所示。

S3计算不同医学特征之间产生的特征交互；

借助双向嵌入得到的医学特征的嵌入向量，我们可以利用更有意义的嵌入向量来丰富每个医学特征。然后，基于更加全面的医学特征表示，我们旨在显示地建模它们之间的功能级交互，并且能够有效的区分不同功能级交互的重要性。

在特征交互表达上，我们利用元素积来对特征交互进行建模，以r_i,j来衡量第i个医学特征和第j个医学特征之间产生的特征交互，其公式如下：

r_i,j＝e_i⊙e_j

即r_i,j与e_i维度相同，其第i个元素值为e_i和e_j的第i个元素值的乘积。

S4通过注意力神经网络计算注意力权重；

我们注意到，不同的特征交互应具有不同的重要性，因此应分配不同的注意力权重。为了实现此目标，我们设计了一个注意力神经网络，以学习每对医学特征之间相互作用的重要性权重，这有助于进行更细粒度的分析。

具体来说，我们提出的注意力神经网络计算注意力权重α的工作原理如下：

其中，

是模型所需要训练的参数，

是W^α的第i列向量，b_i是b的第i个元素值。α_i,j表示第i个医学特征和第j个医学特征生成的交互相对于第i个医学特征的注意力权重。

S5特征交互聚合；

根据前面计算得到的注意力权重α_i,j，我们可以将第i个医学特征与其他所有医学特征产生的交互进行聚合，从而得到该特征产生的交互的全面表示c_i：

S6全面特征表示；

我们将原始特征嵌入向量e_i与功能级交互表达c_i拼接起来，从而丰富原始第i个医学特征得到更加全面的特征表示。同时，我们通过线性压缩将此特征表示转换到低维空间f_i，目的是在降低模型复杂度，同时提升RNN对于时间建模的处理速度。

f_i＝p^TRelu([e_i；c_i])

其中，

是模型的训练参数。d是预定义的超参数，表示最终特征表示的向量大小，我们将其定义为压缩因子。压缩因子越大，可以给特征保留更多信息，但是与此同时，模型的参数大小也将大大增加。最后得到的d维向量f_i即可全面表达第i个原始医学特征及其与其它医学特征交互的所有信息。

S7对所有医学特征的全面特征表示进行拼接得到所述原始医学特征向量x的包含特征之间交互信息的全面表达；

通过上述过程也将|C|维原始医学特征向量扩展为d*|C|维，其中每个特征都能够包含更多都信息，其中包括与其他特征的交互信息。对于每个医学特征，本发明分别对其进行处理以保留特征的个性，并结合其自身与所有其他特征之间的相互作用以增强其区分各种异常模式的能力。因此，与以粗粒度方式合并交互的FM技术方案相比，在我们的功能级交互计算中，每个医学特征都能够和其与其他所有医学特征产生的交互更紧密地结合，从而获得更加丰富的特征表示，从而为后续的机器学习过程提供了更加精确的特征表示。

至少一个处理器；以及，

试验结果

本发明应用上述方法在两个真实世界的公共临床数据集PhysioNet2012数据集(Goldberger,A.L.,Amaral,L.A.,Glass,L.,Hausdorff,J.M.,Ivanov,P.C.,Mark,R.G.,...&Stanley,H.E.(2000).PhysioBank,PhysioToolkit,and PhysioNet:componentsof a new research resource for complex physiologic signals.circulation,101(23),e215-e220.)和MIMIC-III数据集(Johnson,A.E.,Pollard,T.J.,Shen,L.,Li-Wei,H.L.,Feng,M.,Ghassemi,M.,...&Mark,R.G.(2016).MIMIC-III,a freely accessiblecritical care database.Scientific data,3(1),1-9.)中进行了评估。特征提取应用上述实施例方法，对时间建模的过程我们采用带有门控机制的GRU方法，使用二进制交叉熵作为目标函数，为所有患者计算使用二进制交叉熵作为目标函数，为所有患者计算真实样本标签y和预测样本标签

之间的损失：

其中N是训练样本数量，使用反向传播算法结合Adam优化器来训练样本标签y和预测样本标签

之间的损失。

在这两个数据集中，我们选用院内死亡率预测任务来为本发明和基准模型进行评估。该任务是根据入院后48小时内收集的医学记录来预测患者是否会在医院内死亡。我们首先在两个数据集中进行数据标准化过程，然后将样本分为80％：10％：10％来分别作为训练集，验证集和测试集。

在验证集中学习了最佳性能模型后，我们报告该模型在测试集上的结果，包括二进制交叉熵损失(BCE损失)，接收者操作特征曲线下的面积(AUC-ROC得分)以及精确召回曲线下的面积(AUC-PR得分)。此外，我们对每个模型进行了五次实验以报告实验结果。

用于与本发明对比的基准模型如下：

·线性回归模型(LR)：LR求出时间序列数据中每个医学特征的平均值并以此作为输入。此类输入也用于Xgboost，FM和AFM中；

·Xgboost模型:Xgboost是一种可伸缩的端到端树增强算法，可以很好地处理缺失率较高的数据；

·FM：与LR相比，FM使用了线性嵌入机制丰富了特征信息，并且能够捕获了特征之间的交互作用；

·AFM：与FM相比，AFM增加了注意力权重，以区分特征交互的重要性；

·GRU:GRU是一种广泛采用的基于RNN的模型，可以很好地处理时间序列数据；

·SAnD:SAnD采用带有遮罩的自我注意机制来对时间序列数据进行建模，并且使用密集插值策略和位置编码来处理时间顺序；

·RETAIN：RETAIN使用两个逆序的RNN模型同时学习访问级别和变量级别的注意力权重，并且提高了模型的可解释性；

·Dipole:Dipole以双向GRU模型为核心，设计了三种不同的注意力机制(即Dipole_l,Dipole_g,Dipole_c)来更好地挖掘时间上的信息；

·ConCare:ConCare对每个医学特征都使用单独的GRU模型进行建模，并且该模型还通过自我关注机制将人口统计和这些时序数据进行融合，从而生成更加全面的表达。

试验结果如表1所示：

我们用EDUTEM表示本发明，为了区别本发明实施例一双向嵌入的有效性，使用EDUTEM-F_fm表示嵌入机制采用基于FM的嵌入机制，使用EDUTEM-F_bi表示嵌入机制采用实施例一中优选的双向嵌入机制。

表1 Physionet2012数据集和MIMIC-III数据集上的院内死亡率预测任务的BCE损失，AUC-ROC得分和AUC-PR得分(平均值±标准差)

从表中可以看出，本发明方法在两个数据集中均表现最佳。与在Physionet2012数据集和MIMIC-III数据集上最具竞争力的基准模型相比，EDUTEM模型使用了又选的双向嵌入机制后，在AUC-PR上分别有2.16％和3.07％的提升。所有指标都得到了提升进一步证实了EDUTEM模型的有效性。

同时，通过上述试验也充分说明本发明提出的双向嵌入的有效性，即其更适合于EMR数据中的数字型医学特征；并且，本发明方法对医学特征的表示也更加充分。

为了说明本发明方法有效性的原理，我们研究了一位具有DLA的并发症的糖尿病患者A。如图3的曲线所示，作为糖尿病患者，患者A在10小时后出现了极高的血糖值(Glucose value)。从这个数字可以明显看出，随着血糖的不断增加，一些密切相关的医学特征将吸引更多的注意力，例如乳酸(Lactate)，心率(HR)，吸入氧气的比例(FiO2)。但是，相同的血糖变化不会对与血糖弱相关的一些医学特征(例如白细胞(WBC)和血细胞比容(HCT))表现出明显的影响，并且它们的注意力权重(Attention weights)也有所降低。

一方面，借助于功能级交互的解释结果，EDUTEM能够根据医学特征之间的交互来描绘不同的异常模式，从而生成更全面的表示。另一方面，EDUTEM可以揭示医学特征之间的潜在关系，从而为医学研究的发展提供有意义的医学见解。

我们深入研究患者A的更多细节。我们在表2中显示了患者A的部分重要医学特征，包括FiO2，血糖，碳酸氢盐(HCO3)，HCT，HR，乳酸，平均动脉血压(MAP)，温度(Temp)和pH。由于篇幅所限，我们仅以两个时间步长说明这些医学特征，即第13小时和第35小时，分别对应于血糖值异常高和血糖达到稳定的时间。

表2患者A的部分重要医学特征

此外，我们在图4的这两个时间步骤中说明了这些涉及的医学特征的特征级交互的注意权重。根据医学文献(如English,P.,&Williams,G.(2004).Hyperglycaemic crisesand lactic acidosis in diabetes mellitus.Postgraduate medical journal,80(943),253-261.)，我们可以知道DLA是由于不同原因导致血液乳酸增加和PH值降低(<7.35)的异常生化变化所引起的急性糖尿病并发症。在临床实践中，临床医生将对DLA患者进行一些辅助检查，以更好地预测病情，因为DLA患者通常具有低HCO3，体温低，深而大的呼吸以及低血压等症状。所有上述症状均在患者A中观察到，这证实了DLA的发生并揭示了患者健康状况的恶化。此外，从图4中，我们发现在功能级交互计算中学习的注意力权重与上述医学文献高度一致。血糖和乳酸都更加关注这些密切相关且异常的医学特征，并学习到该异常模式。此外，一些与DLA不相关的医学特征(例如HCT)往往对应相对较低的注意力权重。

另一个发现是，相同的特征和特征产生的交互作用在两个特征的表达中具有不同的注意力权重。例如，在第13小时，乳酸值高是患者A pH值低的主要原因，这反映为pH相互作用中的注意力重心较高。但是，对于乳酸，功能级交互计算会更加注意比pH值更重要的其他异常特征，比如HCO3，血压等。在ICU中治疗大约一天(即第35小时)后，血糖恢复到到正常水平，这导致注意权重在其他医学特征(包括pH)中的分配更加平均。

从此示例中，我们发现，可以通过与其他医学特征的交互来丰富某医学特征表示，而具有异常值的医学特征将在与其紧密相关的医学特征的交互中引起更高的关注度(即注意力权重)。此外，在患者住院期间，医学特征值的改变可导致相应注意权重的改变，其表示着患者动态的健康状况。基于该功能级交互计算的可解释性分析，临床医生可以及时发现异常，因此可以迅速对患者管理做出个性化的临床决策。此外，通过本发明功能级交互计算学习到的这种注意力权重有能力能够揭示特征之间的一些潜在的并且尚未被发现的联系，这也为推进医学研究提供了机会。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称并不构成对该单元本身的限定。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。