CN116543917A

CN116543917A - 一种针对异构时间序列数据的信息挖掘方法

Info

Publication number: CN116543917A
Application number: CN202310521947.6A
Authority: CN
Inventors: 李青; 李泽昊; 鲍建烁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-08-04

Abstract

本发明属于医疗预测领域，并公开了一种针对异构时间序列数据的信息挖掘方法，包括：获取电子病历数据并构建超图，对超图进行分析计算，得到嵌入表示数据，基于注意力机制对嵌入表示数据进行加权，得到嵌入序列数据，构建序列学习模型并进行隐藏状态访问，得到隐藏表示数据及其权重数据，对嵌入序列数据进行加权，得到嵌入序列隐藏数据；通过时间训练参数数据对序列学习模型进行训练，通过训练后的序列学习模型对嵌入序列隐藏数据进行加权，得到时间维度隐藏数据，构建全连接网络对时间维度隐藏数据进行分析，得到医疗事件预测数据。本发明所述技术方案能够利用时间步信息学习时间维度上的复杂信息，能够得到精确的医疗事件预测结果。

Description

一种针对异构时间序列数据的信息挖掘方法

技术领域

本发明属于医疗预测领域，特别是涉及一种针对异构时间序列数据的信息挖掘方法。

背景技术

电子健康档案(EHR)，全称为ElectronicHealthRecord，指的是一个纵向的患者电子医疗信息搜集系统，可以记录患者在所有医疗机构产生的数据。这种通过数字化方式存储的信息需要能够在不同的医疗机构之间共享，以便于让患者在不同的医生、医院、诊所，甚至不同国家的时候都能够得到良好的医疗服务，也可以让医生以及其他医疗服务人员、保险公司等在不同的设备之间共享该患者的医疗记录。

在EHR中，医生和其他医护人员通常使用文本来记录患者的健康信息和医疗历史。这些文本数据包括病历、实验室结果、放射学报告、医嘱、处方等，它们都以自然语言的形式存储。NLP技术可以分析这些文本信息，从中提取有用的信息，帮助医生和其他医护人员做出更准确的诊断和治疗决策。

以下是一些常见的NLP应用：

实体提取：该技术可以识别文本中的实体，并将它们与特定的类别相关联，例如疾病、药品、手术、实验室测试结果等。医护人员可以通过实体提取功能快速获取关于患者的有用信息，例如病史、治疗计划和过敏反应等。

自动摘要：该技术可以使用自然语言处理算法来自动生成文本的摘要或概述。对于大量的医疗记录，自动摘要可以帮助医生更快地了解患者的病情和诊断结果。

文本分类：该技术可以将文本数据自动分类到不同的类别中，例如疾病和症状、临床实验室、药品等。这可以帮助医生更好地理解患者的健康状况，并快速找到有关病情的相关信息。

情感分析：该技术可以分析文本中包含的情感色彩，例如患者的疼痛程度或病人对某种治疗方案的反应。这可以帮助医生更好地评估患者的病情和医疗需求，从而提供更好的护理和治疗计划。

语音识别：该技术可以将医护人员的口头指示转换为文本格式，并存储在EHR系统中。这可以帮助医护人员更快地记录患者信息，同时也可以帮助减少输入错误。综上所述，NLP技术可以帮助医护人员更好地利用EHR系统中的大量文本信息。通过实体提取、自动摘要、文本分类、情感分析等功能，NLP技术可以帮助医护人员更快地访问和分析患者的健康信息，从而提高医疗保健的质量和效率。

电子健康档案(EHR)属于时间序列数据，时间序列数据在数据挖掘中是一种常见的数据类型。其通常由多个时间状态下的数据组成，蕴含着丰富的时间信息，从中我们可以挖掘数据的演变规律，并进行合理的推测，这对于很多预测任务非常重要。

而异构的时间序列数据则更加复杂。一方面，现实世界的图远非同质的，异构信息网络普遍存在，如药物靶向生物医学网络和推荐网络；另一方面，异构时间序列数据可能具有不同的采样率、不同的时间跨度或不同的时间戳，也可能在不同的时间间隔内测量不同的变量或者属性。如何更好地挖掘异构时间序列数据中的各种信息，已成为近年来学术界广泛关注的问题。

在现有技术中，没有全面考虑EHR数据的各个特征，因此不能充分挖掘出隐藏在医疗代码与患者之间的潜在信息，这将影响模型的性能以及可解释性。现有模型虽然可以一定程度上处理不规则时间间隔的问题，但是都没有将时间信息视为一种“新”类型的医疗事件，以统一的方式学习每次访问的信息衰减率和每次访问中医疗事件之间的相关性，且不具有具有任务自适应性。

发明内容

本发明的目的是提供一种针对异构时间序列数据的信息挖掘方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种针对异构时间序列数据的信息挖掘方法，包括：

获取电子病历数据，基于所述电子病历数据构建超图，通过多层感知机和注意力机制对所述超图进行分析计算，得到嵌入表示数据；基于注意力机制构建任务自适应模型，通过所述任务自适应模型对所述嵌入表示数据进行分类加权，得到嵌入序列数据，

构建序列学习模型，通过所述序列学习模型对所述嵌入序列数据进行隐藏状态访问分析，得到所述嵌入序列数据的隐藏表示数据；

获取隐藏表示数据的权重数据，基于所述权重数据对所述嵌入序列数据进行加权，得到嵌入序列隐藏数据；

获取时间训练参数数据，通过所述时间训练参数数据对所述序列学习模型进行训练，通过训练后的序列学习模型对所述嵌入序列隐藏数据进行加权，得到所述嵌入序列数据的时间维度隐藏数据，构建全连接网络，通过所述全连接网络对所述时间维度隐藏数据进行预测分析，得到医疗事件预测数据。

可选的，所述电子病历数据包括：患者信息数据和医疗代码数据。

可选的，所述构建超图的过程包括：将所述患者信息数据作为超边集E，将所述医疗代码数据作为节点集C，基于所述超边集E和所述节点集C构建超图Gh；

其中，所述构建超图Gh的计算公式为：

Gh＝(C,E)

式中，表示层l中的第i个患者或超边表示，N_p表示患者数量。

可选的，获取嵌入表示数据的过程包括：

基于所述注意力机制对所述超图Gh进行分析，得到所述超图Gh的重要数据，通过多层感知机对所述重要数据进行迭代分析，得到嵌入表示数据Node；

其中，所述获取嵌入表示数据Node的计算公式为：

其中，φ(c)＝p_j|c∈P_j表示包含节点c的超边表示集，w是可学习的参数矩阵，ψ是由MLP实现的节点和超边嵌入之间的兼容性度量函数。

可选的，所述任务自适应模型包括任务已知注意力模型和任务未知注意力模型/>

其中，所述任务已知注意力模型为：

所述任务未知注意力模型为：

所述任务已知注意力模型的输出o_t与任务未知注意力模型/>的输出/>为：

式中，其中为主要事件的嵌入表示，/>为次要事件的嵌入表示，n为事件的种类数：m,d,l,p为医疗事件类型event的一种，分别代表药物，诊断，实验室测试与手术；

基于所述任务已知注意力模型的输出o_t和所述任务未知注意力模型/>的输出/>构建访问嵌入序列数据；

所述访问嵌入序列数据为[o₁,o₂,…,o_T]。

可选的，获取所述隐藏表示数据的过程包括：

选取任意序列建模网络Backbone作为骨干网络，基于所述骨干网络构建序列学习模型，通过所述序列学习模型对所述访问嵌入序列数据进行分析计算，得到隐藏表示数据h；

其中，所述获取隐藏状态访问数据h的计算公式为：

h＝[h₁,h₂,…,h_T]＝Backbone[o₁,o₂,…,O_T]。

可选的，获取嵌入序列隐藏数据的过程包括：通过访问级别注意力机制获取所述隐藏表示数据h的权重数据[α₁,…,α_T]，基于所述权重数据[α₁,…,α_T]对所述嵌入序列数据进行加权，得到嵌入序列隐藏数据

其中，所述获取嵌入序列隐藏数据的计算公式为：

其中，为从1到T的访问的隐藏状态矩阵。

可选的，获取时间维度隐藏数据的过程包括：

所述时间训练参数数据包括：W_Δg_t1、b_Δg_t1、W_Δg_t2和b_Δg_t2；

基于所述时间训练参数数据对所述序列学习模型进行训练；

所述对所述序列学习模型进行训练的计算过程为：

其中，W_Δg_t1∈R^b，b_Δg_t1∈R^b，W_Δg_t2∈R^m×b，b_Δg_t2∈R^m；

模型训练完成后利用sigmoid函数获取全局时间衰减得分数据[β₁，...，β_T]，基于所述全局时间衰减得分数据[β₁，...，β_T]对所述嵌入序列隐藏数据进行加权，得到时间维度隐藏数据/>

其中，所述获取时间维度隐藏数据的计算过程为：

可选的，获取医疗事件预测数据y′的过程包括：

y′＝σ(W_u[h′，e^s]+b_u)

其中，W_u∈R^ρ×(b+g)，为训练参数。本发明的技术效果为：

本发明提供的一种针对异构时间序列数据的信息挖掘方法将超图结构融入到异构时间序列数据建模过程中，这种做法可以在超图结构中保留患者的概念，并且与真实医生就诊过程非常相近，即通过对比相似症状的病人的治疗方案以对病情进行更合理的诊断以及防治工作。这为人工智能模型进行医疗工作提供了非常重要的可解释性，并且辅助医生就诊。同时针对下游任务调整不同的attention方式，以统一的方式学习每次访问的信息衰减率和每次访问中医疗事件之间的相关性，这种注意力机制是时间感知和任务自适应的。这种模式可以在多种下游任务中获得性能提升，在提高准确率的同时不失泛化性，这使得本发明可以应对更多更复杂的实际医疗情况，从多角度辅助医护人员工作；本申请的技术方案能够根据任务类型动态调整学习模式以更新嵌入，随后进入序列学习模块，利用时间步信息学习时间维度上的复杂信息，能够得到精确的医疗事件预测结果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的流程图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一

如图1所示，本实施例中提供了一种针对异构时间序列数据的信息挖掘方法，包括：

获取电子病历数据，基于所述电子病历数据构建超图，通过多层感知机和注意力机制对所述超图进行分析计算，得到嵌入表示数据，基于注意力机制构建任务自适应模型，通过所述任务自适应模型对所述嵌入表示数据进行分类加权，得到嵌入序列数据，

本实施例的超图表示学习方法首先将EHR这种异构时间序列数据构建成超图的形式，对于每一个时间切片，将每一位患者视为超边，每个医疗代码视为一个节点。以此为基础构建超图，此外在构建好的超图上先通过融合超边上所有节点的信息学习超边的嵌入，之后对于每个节点来说，将其所在的所有超边的信息进行融合来更新节点表示。经过上述过程可以得到嵌入表示，将其放入任务自适应注意力模块，可以根据任务类型动态调整学习模式以更新嵌入。随后进入序列学习模块，利用时间步信息学习时间维度上的复杂信息，最后进行结果预测。

具体包括如下步骤：

S1.将EHR数据集中的数据嵌入到超图结构并更新节点与超边信息；

S2.为了使得模型具有任务自适应性，基于超图学习到的嵌入表示数据，针对下游任务类型分类进行注意力学习；

S3.为了在时间维度挖掘隐藏信息，利用局部不规则时间间隔以及全局时间间隔指导模型学习，得到时间维度隐藏嵌入数据；

S4.将时间维度隐藏嵌入数据表示投入两个全连接层进行结果预测；

在步骤S1中，在超图中首先将节点信息聚合到

Gh＝(C,E)表示患者代码超图，C是超图中的节点集，也是医学代码集。

表示超边集或患者记录集，/>表示层l中的第i个患者或超边表示，令φ(c)＝p_j|c∈P_j表示包含节点c的超边表示集；

神经网络中的过度平滑问题可能会使医疗代码和患者表示在超图中变得难以区分。因此，在进行消息传递时，有必要选择最重要的节点或超边。于是应用了attention机制，具体表述如下。由MLP实现的ψ是节点和超边嵌入之间的兼容性度量。w是参数向量：

经过若干次上述迭代后，我们得到患者嵌入表示数据为后续步骤进行服务。

在步骤S2中，根据目标事件的类型，跨事件注意力有两种情况：非任务感知注意力和任务感知注意力。task-unwareattention对应于目标事件是不同于历史访问中所有事件的新类型的情况，而task-awareattention对应于历史访问包括与历史访问中相同类型的医疗事件的情况目标事件(即主要事件)。我们在任务感知注意力中仅对主要事件(以药物预测为例)应用自我注意力，

但在任务未知注意力中的所有事件如下：

是所有时间和时间嵌入的矩阵。该模块最终的输出如下：

由于主要事件(或所有事件)和时间间隔之间的注意力权重，我们提出的方法是时间感知的。由于在事件级别应用了注意力，因此同样具有事件感知能力。此外，注意机制可以适应不同的任务。

在步骤S3中，任何序列建模网络都可以作为骨干网络对历史访问序列进行建模，例如GRU、LSTM、Transformer。假设时间感知、事件感知和任务自适应访问嵌入序列[o₁，o₂，...，o_T]的隐藏表示数据可以通过以下等式获得：

h＝[h₁，h₂，...，h_T]＝Backbone[o₁，o₂，...，O_T]

其中h_t∈R^b是隐藏状态通过聚合所有医疗信息进行第t次访问，Backbone是任意一个序列建模网络。在获取h后，我们使用访问级别的注意力为每个访问生成对应的注意力权重，得到隐藏表示数据的权重数据：

其中是从1到T的访问的隐藏状态矩阵；

基于所述隐藏表示数据的权重数据得到每位患者的嵌入序列隐藏数据：

除了考虑局部时间间隔外，我们还考虑全局时间衰减对于信息传递的影响，与局部时间信息类似，同样将其看作一种医疗事件，对模型进行训练：

其中W_Δg_t1∈R^b，b_Δg_t1∈R^b，W_Δg_t2∈R^m×b，b_Δg_t2∈R^m都是训练参数，更进一步，利用sigmoid函数计算全局时间衰减得分，并加权到嵌入序列隐藏数据上，得到嵌入序列的时间维度隐藏数据，具体公式如下：

在步骤S4中，使用带有sigmoid函数的全连接网络进行二元向量预测如下：

y′＝σ(W_u[h′,e^s]+b_u)

其中W_u∈R^ρ×(b+g)，为训练参数，y′为得到的预测值将其与label进行二元交叉熵损失即可优化整个网络。

采用本实施例提供的方法的优点在于：

本实施例的方法首先构建一个超图表示学习框架。且尝试从EHR数据中联合捕获代码-代码、患者-患者和患者-代码关系；

同时，本实施例将时间信息视为一种“新”类型的医疗事件，并提出了一种新颖的注意机制(交叉事件注意)，以统一的方式学习每次就诊的信息衰减率以及每次就诊的医疗事件之间的相关性。这种注意力机制是时间感知和任务自适应的；创新性地引入了访问级注意力来模拟历史访问之间的关系，并引入了全局时间转换器来对全局时间信息进行建模。

本实施例提供的一种针对异构时间序列数据的信息挖掘方法将超图结构融入到异构时间序列数据建模过程中，同时针对下游任务调整不同的attention方式，以统一的方式学习每次访问的信息衰减率和每次访问中医疗事件之间的相关性，这种注意力机制是时间感知和任务自适应的；

本申请的技术方案能够根据任务类型动态调整学习模式以更新嵌入，随后进入序列学习模块，利用时间步信息学习时间维度上的复杂信息，能够得到精确的医疗事件预测结果，在两个常用异构时间序列数据集，以及三个下游任务上的实验结果超过当前最先进的水平。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种针对异构时间序列数据的信息挖掘方法，其特征在于，包括：

2.根据权利要求1所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

所述电子病历数据包括：患者信息数据和医疗代码数据。

3.根据权利要求2所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

所述构建超图的过程包括：将所述患者信息数据作为超边集E，将所述医疗代码数据作为节点集C，基于所述超边集E和所述节点集C构建超图Gh；

其中，所述构建超图Gh的计算公式为：

Gh＝(C,E)

4.根据权利要求3所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

获取嵌入表示数据的过程包括：

其中，所述获取嵌入表示数据Node的计算公式为：

5.根据权利要求4所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

所述任务自适应模型包括任务已知注意力模型和任务未知注意力模型/>

其中，所述任务已知注意力模型为：

所述任务未知注意力模型为：

式中，其中为主要事件的嵌入表示，/>为次要事件的嵌入表示，n为事件的种类数：m，d，l，p为医疗事件类型event的一种，分别代表药物，诊断，实验室测试与手术；

基于所述任务已知注意力模型的输出o_t和所述任务未知注意力模型/>的输出构建访问嵌入序列数据；

所述访问嵌入序列数据为[o₁，o₂，...，o_T]。

6.根据权利要求5所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

获取所述隐藏表示数据的过程包括：

其中，所述获取隐藏状态访问数据h的计算公式为：

h＝[h₁，h₂，...，h_T]＝Backbone[o₁，o₂，...，O_T]。

7.根据权利要求6所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

获取嵌入序列隐藏数据的过程包括：通过访问级别注意力机制获取所述隐藏表示数据h的权重数据[α₁，...，α_T]，基于所述权重数据[α₁，...，α_T]对所述嵌入序列数据进行加权，得到嵌入序列隐藏数据

其中，所述获取嵌入序列隐藏数据的计算公式为：

其中，为从1到T的访问的隐藏状态矩阵。

8.根据权利要求7所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

获取时间维度隐藏数据的过程包括：

基于所述时间训练参数数据对所述序列学习模型进行训练；

所述对所述序列学习模型进行训练的计算过程为：

其中，所述获取时间维度隐藏数据的计算过程为：

9.根据权利要求8所述的一种针对异构时间序列数据的信息挖掘方法，其特征在于，

获取医疗事件预测数据y′的过程包括：

y′＝σ(W_u[h′，e^s]+b_u)

其中，W_u∈R^ρ×(b+g)，为训练参数。