CN117409911A

CN117409911A - 一种基于多视图对比学习的电子病历表示学习方法

Info

Publication number: CN117409911A
Application number: CN202311325540.2A
Authority: CN
Inventors: 李沛霖; 曹宇; 彭德中
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-16
Anticipated expiration: 2043-10-13
Also published as: CN117409911B

Abstract

本发明提供了一种基于多视图对比学习的电子病历表示学习方法，具体包括以下步骤：根据电子病历中患者数据的医疗代码，构建相应图结构数据；利用医疗代码的共现矩阵对图结构数据进行预训练；利用多视图对比学习法在训练集上对多个任务同时训练模型，得到训练完成的多视图对比学习模型以及在训练集上的多任务患者表示矩阵；根据训练完成的多视图对比学习模型，计算待分类多任务患者表示矩阵，并根据表示矩阵得到多任务的患者预测结果。本发明解决了如何在多任务上有效利用电子病历中医疗代码的内在结构进行患者有效表示的问题，通过结合图对比学习、多视图和多任务学习的思想，提高了下游任务的分类预测准确率。

Description

一种基于多视图对比学习的电子病历表示学习方法

技术领域

本发明属于电子病历数据表示学习技术领域，具体涉及到一种基于多视图对比学习的电子病历表示学习方法。

背景技术

电子病历中记录的医疗代码在挖掘患者信息方面起着至关重要的作用，这些代码通常包括诊断代码、手术代码、医嘱代码等信息。分析患者相关的代码可以提供临床路径的宝贵信息，这些代码之间存在着隐藏的图结构关系，利用医疗代码本身的信息和他们之间的关联关系帮助解决临床决策支持的问题，并辅助相关的预测任务，例如死亡预测、重入院预测、诊断预测以及住院时长预测。

图神经网络技术在发掘图结构的数据上有较强的能力，已经涌现了不少将图神经网络应用于医疗数据的研究工作。当前研究主要集中在应用图神经网络挖掘医疗本体知识，或探索在EHR数据集上对治疗代码、诊断代码的网络结构，但是这些研究都只是利用医疗代码本体的网络结构或者简单的构建一个全连接的图网络结构，没有充分发挥医疗代码的潜力。另外，应用图神经网络在电子病历数据集上的研究大多集中在单个下游任务上，没有充分发掘多个患者相关任务之间的关联关系。

发明内容

针对现有方法的不足，本发明提出了一种基于多视图对比学习的电子病历表示学习方法，充分利用医疗代码的潜在表示能力，提高了患者下游任务的预测能力，为患者分析、临床决策等任务提供有力的支持。

为了解决上述技术问题，本发明通过以下方式来实现：

一种基于多视图对比学习的电子病历表示学习方法，具体包括以下步骤：

S1、根据电子病历中患者数据的医疗代码，构建相应图结构数据；

S2、利用医疗代码的共现矩阵对图结构数据进行预训练；

S3、利用多视图对比学习法在训练集上对多个任务同时训练模型，得到训练完成的多视图对比学习模型以及在训练集上的多任务患者表示矩阵；

S4、根据训练完成的多视图对比学习模型，计算待分类多任务患者表示矩阵，并根据表示矩阵得到多任务的患者预测结果。

进一步地，所述步骤S1包括以下分步骤：

S11、将电子病历中有t-th次就诊记录的患者就诊数据表示为V_t＝{d₁，d₂，...，d_|d|，m₁，m₂，…，m_|m|，r₁，r₂，...，r_|r|}，其中d_i(1≤i≤|d|)表示诊断代码，m_j(1≤j≤|m|)表示治疗代码，r_k(1≤k≤|r|)表示实验室检查代码；

S12、将患者的就诊数据V_t构建成一个具有层级结构的全连接图网络其中X表示初始化的节点表示，A表示邻接矩阵，在构建邻接矩阵A时，设定每一个诊断代码d_i和每一个治疗代码m_j之间有连接，每一个治疗代码m_j和每一个实验室检查代码r_k之间也有连接。

进一步地，所述步骤S2包括以下分步骤：

S21、设置c_i∈{d₁，d₂，...，d_|d|，m₁，m₂，...，m_|m|，r₁，r₂，...，r_|r|}为V_t的第i个代码，其初始化表达式如下：

其中，e₀表示节点类型的0～1向量，表示节点c_i的基本嵌入，/>表示对应本体知识中的级别，/>表示e_i的父节点的基本嵌入，使用零向量e_zero来确保每个/>具有相同的维度；

S22、对V_t的每个医疗代码c_i，补充其对应的医疗本体知识中对应的所有父级代码和V_t合并得到V′，其/>表示代码c_i对应本体知识中的级别；

S23、设置两个医疗代码的共现次数的表达式如下：

co-occurrence＝cnt(c′_i，V′)×cnt(c′_j，V′)

其中，cnt(c′_i，V′)和cnt(c′_j，V′)分别表示节点c′_i和c′_j在V′中出现的次数，c′_i∈V′，c′_j∈V′，共现矩阵M∈R^D×D通过计算增广后的列表V′中的所有代码对得到的；

S24、对图网络的每个节点表示进行预训练，其表达式如下：

其中，超参数x_max和α分别设定为100和0.75。

进一步地，所述步骤S3包括以下分步骤：

S31、对从患者就诊流水V中构建并通过预训练得到的送到多视图对比学习模块，得到用于下游任务的图表示/>及用于模型训练的图表示/>和节点表示

S32、针对步骤S31重复进行l次，得到和/>的表达式如下：

其中，用于下游任务，/>表示第l次S31步骤中k个视图参数共享的图编码器，/>表示对/>进行增广得到的第k个图，/>表示池化函数，/>和/>分别表示具有三个线性层和ReLU非线性激活的多层感知机网络，生成对应第l次S31步骤中第k个视图的图级表示和节点级表示，/>和/>用于多视图的参数训练过程；

S33、设置一个门控网络q^m(.)用于下游患者的预测任务Task_m m∈(1，2，3，4)，当前设置下游任务数量为4是为了与图2中保持一致，根据实际情况进行调整任务数量，所述任务Task_m的输出表达式如下：

其中，T^m(.)表示第m个塔网络(一个线性变换层加softmax层的神经网络结构)，表示读出操作，E_i(.)表示第1个专家网络，对于任务Task_m满足/>W_qm∈Rⁿ ^×d表示一个可训练的矩阵；

S34、采用联合学习策略对模型进行训练，优化下游任务的预测损失和不同类型的对比损失，其损失函数表达式如下：

其中，β₀、β₁和α_i(i∈1，2，..，m)表示任务损失之间的系数，表示第i下游任务的预测损失，/>最大化不同尺度视图之间的互信息，即来自一个视图的节点级表示与来自另一个视图的图级表示之间的互信息；

所述的表达式如下：

其中，表示图的数量，/>表示图中节点的数量，/> 和/>表示l-th MGCL模块中图/>的第i个或第j个视图的图级表示，/>和/>表示l-thMGCL模块中图/>的第i个或第j个视图的第w个节点级表示，其中i，j∈{2，3}，i≠j；

MI(.)作为衡量一个视图的图级表示与另一个视图的节点级表示之间一致性的判别器，采用MI作为它们之间的点积表达式如下：

表示正样本对的图级视图之间的对比损失，正样本对来自于同一访问图/>的图级视图/>在第l个多视图对比学习模块中，负样本对从同一训练批次中的其他访问图级表示中随机生成。

所述的表达式如下：

其中，τ表示温度参数。

进一步地，所述步骤S4包括以下分步骤：

S41、根据训练好的多视图对比学习模型计算患者在任务m上的表示矩阵如下：

其中T^m和E^m均表示训练完成的模型参数；

S42、根据步骤S41得到的y_m计算任务m上的预测分类结果表达式如下：

y＝softmax(y_m)

进一步的，所述步骤S31具体包含以下分步骤：

S311、对从患者就诊流水V编码得到的图通过增广机制/>进行增广，并得到三个增广图/>和/>

具体的增广机制策略方法如下：A和X是通过增广机制增强后邻接矩阵和节点特征矩阵；k∈1，2，3表示多视图对比学习模块(MGCL模块)中的第k个增广图，对于第一个增广图，特征矩阵和邻接矩阵保持不变，/>对于第二个和第三个增广视图，采用随机增广方式，/>其中a∈1，2，3，4，5，6表示6种不同的增广机制，分别为节点删除、边扰动、子图、属性掩码、边扩散和节点替换。实验证明，随机增广可以提高模型对下游任务的预测效果，因为对/>和/>采用不同的增广策略可以提高模型在下游任务的鲁棒性。

S312、三个增广图被送入参数共享的图编码器中得到/>k表示与前面增广图对应的图的编号，即第k个增广图送入第k个图编码器。

S313、下游任务的图表示用作MGCL模块的输出，/>和/>输入到一个共享的投影函数/>中，得到两个隐藏的节点表示的表达式如下：

S314、对步骤S313得到的和/>进行复制，再输入到池化函数将节点表示连接起来并产生一个与节点表示维度大小相同的图表示，

S315、将步骤S314池化函数的输出结果输入到另一个参数共享的投影函数生成模型训练的图表示的表达式如下：

与现有技术相比，本发明具有的有益效果：

本发明设计了一种分层全连接的电子病历数据构建模式，用于从电子病历数据中的医疗代码构建图结构数据，构建的图网络连接方式反映了实际的诊疗过程：临床医生下的治疗代码(例如：肺炎)是根据相应的诊断代码来执行的，治疗代码(例如：血常规检验、口服阿莫西林)也会产生相应的实验检查的代码(PCT、CRP等)，该构建方案简化所有治疗代码；

同时利用医疗代码的共现矩阵进行医疗代码表示的预训练，提高了医疗数据的表示能力，该共现矩阵的构建有效利用了电子病历数据中诊断、治疗、实验室代码的共现信息，同时也利用了医疗本体知识的层级信息，对医疗代码的表示进行了有效的初始化。

本发明构建的一个多视图对比学习方法，结合了图对比学习、多视图和多任务学习方法，同时训练多个患者相关的分类预测任务；多视图对比学习方法同时结合多视图、多任务以及图对比学习方法，通过采用多视图学习方法，可以将不同类型的信息视图整合在一起，从而获得更全面、多角度的数据表示；通过多任务学习方法可以共享模型的特征表示，从而在多个任务之间传递信息，提高模型的泛化能力；利用图对比学习有助于捕捉患者之间的相似性和差异性，用于识别潜在模式和关联。

附图说明

图1为本发明学习方法的流程示意图。

图2为本发明学习方法的模型示意图。

图3为本发明具有层次机构的全连接图示意图。

图4为本发明的患者V_t增广示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1～4所示，一种基于多视图对比学习的电子病历表示学习方法，具体包括以下步骤：

S1、根据电子病历中患者数据的医疗代码，包含诊断、治疗和实验室检查代码，构建相应图结构数据其实现方法如下：

S11、将电子病历中有t-th次就诊记录的患者就诊数据表示为V_t＝{d₁，d₂，...，d_|d|，m_i，m₂，…，m_|m|，r₁，r₂，...，r_|r|}，其中d_i(1≤i≤|d|)表示诊断代码，m_j(1≤j≤|m|)表示治疗代码，r_k(1≤k≤|r|)表示实验室检查代码；

S2、利用医疗代码的共现矩阵对图结构数据进行预训练，其实现方法如下：

S21、设置c_i∈{d₁，d₂，...，d_|d|，m_i，m₂，...，m_|m|，r₁，r₂，...，r_|r|}为V_t的第i个代码，其初始化表达式如下：

其中，e₀表示节点类型(诊断、治疗或实验室结果)的0～1向量，表示节点c_i的基本嵌入，/>表示对应本体知识中的级别，/>表示e_i的父节点的基本嵌入；电子病历中使用的医疗代码对应本体中不同的层级，使用零向量/>来确保每个/>具有相同的维度，/>表示本体中c_i的最大层级编号；

S23、设置两个医疗代码的共现次数的表达式如下：

co-occurrence＝cnt(c′_i，V′)×cnt(c′_j，V′)

S24、对图网络的每个节点表示进行预训练，其表达式如下：

其中，超参数x_max和α分别设定为100和0.75，此参数自行设定，可根据实际下游任务的效果进行微调。

S3、利用多视图对比学习法在训练集上对多个任务同时训练模型，得到训练完成的多视图对比学习模型以及在训练集上的多任务患者表示矩阵，其实现方法如下：

S32、针对步骤S31重复进行l次，得到和/>的表达式如下：

其中，T^m(.)表示第m个塔网络(一个线性变换层加softmax层的神经网络结构)，表示读出操作，E_i(.)i∈1，2，...，N_l表示第l个专家网络，即一个多视图对比学习MGCL模块，对于任务Task_m满足/>门控网络q^m(.)简单地在/>的X上使用softmax，W_qm∈R^n×d表示一个可训练的矩阵；

所述的表达式如下：

表示正样本对的图级视图之间的对比损失，正样本对来自于同一访问图/>的图级视图/>在第l个多视图对比学习模块中，负样本对从同一训练批次中的其他访问图级表示中随机生成；

第n个就诊记录的图表达式如下：

其中，τ表示温度参数。

S4、根据训练完成的多视图对比学习模型，计算待分类多任务患者表示矩阵，并根据表示矩阵得到多任务的患者预测结果，其实现方法如下：

其中T^m和E^m均表示训练完成的模型参数；

y＝softmax(y_m)

进一步的，所述步骤S31具体包含以下分步骤：

S311、对从患者就诊流水V编码得到的图通过增广机制/>进行增广，并得到三个增广图/> 和/>A和X是通过增广机制增强后邻接矩阵和节点特征矩阵；k∈1，2，3表示多视图对比学习模块中的第k个增广图，对于第一个增广图，特征矩阵和邻接矩阵保持不变，/>对于第二个和第三个增广视图，采用随机增广方式，其中a∈1，2，3，4，5，6表示6种不同的增广机制，分别为节点删除、边扰动、子图、属性掩码、边扩散和节点替换。实验证明，随机增广可以提高模型对下游任务的预测效果，因为对/>和/>采用不同的增广策略可以提高模型在下游任务的鲁棒性。

以上所述仅是本发明的实施方式，再次声明，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进，这些改进也列入本发明权利要求的保护范围内。

Claims

1.一种基于多视图对比学习的电子病历表示学习方法，其特征在于：包括以下步骤：

S2、利用医疗代码的共现矩阵对图结构数据进行预训练；

2.如权利要求1所述一种基于多视图对比学习的电子病历表示学习方法，其特征在于：

所述步骤S1包括以下分步骤：

S11、将电子病历中有t-th次就诊记录的患者就诊数据表示为V_t＝{d₁,d₂,…,d_|d|,m₁,m₂,…,m_|m|,r₁,r₂,…,r_|r|}，其中d_i(1≤i≤|d|)表示诊断代码，m_j(1≤j≤|m|)表示治疗代码，r_k(1≤k≤|r|)表示实验室检查代码；

3.如权利要求1所述一种基于多视图对比学习的电子病历表示学习方法，其特征在于：

所述步骤S2包括以下分步骤：

S21、设置c_i∈{d₁,d₂,…,d_|d|,m₁,m₂,…,m_|m|,r₁,r₂,…,r_|r|}为V_t的第i个代码，其初始化表达式如下：

S22、对V_t的每个医疗代码c_i，补充其对应的医疗本体知识中对应的所有父级代码和V_t合并得到V'，/>表示代码c_i对应本体知识中的级别；

S23、设置两个医疗代码的共现次数的表达式如下：

co-occurrence＝cnt(c′_i,V′)×cnt(c′_j,V′)

其中，cnt(c'_i,V')和cnt(c_j',V')分别表示节点c'_i和c'_j在V'中出现的次数，c'_i∈V'，c'_j∈V'，共现矩阵M∈R^D×D通过计算增广后的列表V'中的所有代码对得到的；

S24、对图网络的每个节点表示进行预训练，其表达式如下：

其中，超参数x_max和α分别设定为100和0.75。

4.如权利要求1所述一种基于多视图对比学习的电子病历表示学习方法，其特征在于：

所述步骤S3包括以下分步骤：

S32、针对步骤S31重复进行l次，得到和/>的表达式如下：

其中，用于下游任务，/>表示第l次k个视图参数共享的图编码器，/>表示对/>进行增广得到的第k个图，/>表示池化函数，/>和/>分别表示具有三个线性层和ReLU非线性激活的多层感知机网络，/>和/>用于多视图的参数训练过程；

S33、设置一个门控网络q^m(.)用于下游患者的预测任务Task_m m∈(1,2,3,4)，根据实际情况调整任务数量，所述任务Task_m的输出表达式如下：

其中，T^m(.)表示第m个塔网络，表示读出操作，E_i(.)表示第l个专家网络，对于任务Task_m满足/>W_qm∈R^n×d表示一个可训练的矩阵；

其中，β₀、β₁和α_i(i∈1,2,..,m)表示任务损失之间的系数，表示第i下游任务的预测损失，/>最大化不同尺度视图之间的互信息；

所述的表达式如下：

其中，表示图的数量，/>表示图中节点的数量，和/>表示l-thMGCL模块中图/>的第i个或第j个视图的图级表示，/>和/>表示l-thMGCL模块中图/>的第i个或第j个视图的第w个节点级表示，其中i,j∈{2,3},i≠j；

所述的表达式如下：

其中，τ表示温度参数。

5.如权利要求1所述一种基于多视图对比学习的电子病历表示学习方法，其特征在于：

所述步骤S4包括以下分步骤：

其中T^m和E^m均表示训练完成的模型参数；

y＝softmax(y_m)

6.如权利要求4所述一种基于多视图对比学习的电子病历表示学习方法，其特征在于：

所述步骤S31具体包含以下分步骤：

S311、对从患者就诊流水V编码得到的图通过增广机制/>进行增广，并得到三个增强图/>和/>

S312、三个增广图被送入参数共享的图编码器中得到/>k表示与前面增广图对应的图的编号；

7.如权利要求6所述一种基于多视图对比学习的电子病历表示学习方法，其特征在于：

所述步骤S311具体的增广机制策略方法如下：

A和X是通过增广机制增强后邻接矩阵和节点特征矩阵；k∈1,2,3表示多视图对比学习模块(MGCL模块)中的第k个增广图，对于第一个增广图，特征矩阵和邻接矩阵保持不变，对于第二个和第三个增广视图，采用随机增广方式，/> 其中a∈1,2,3,4,5,6表示6种不同的增广机制，分别为节点删除、边扰动、子图、属性掩码、边扩散和节点替换。