CN114913982A

CN114913982A - 基于对比学习的终末期肾病并发症风险预测系统

Info

Publication number: CN114913982A
Application number: CN202210838416.5A
Authority: CN
Inventors: 李劲松; 王丰; 池胜强; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-08-16
Anticipated expiration: 2042-07-18
Also published as: US11875882B1; CN114913982B; US20240021312A1

Abstract

本发明公开了一种基于对比学习的终末期肾病并发症风险预测系统，包括终末期肾病数据准备模块，用于利用医院电子信息系统和日常监测设备提取患者的结构化数据，并对所述结构化数据处理得到扩增结构化数据；并发症风险预测模块，用于构建并发症表征学习模型和并发症风险预测模型，将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征，并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。本发明基于倾向性得分匹配与SMOTE结合，进行数据扩增和正负样本匹配，以扩增结构化的终末期肾病数据，并解决正负样本不均衡的问题；从多个角度防止特征崩溃现象，获得更好的表征效果，从而提高模型性能。

Description

基于对比学习的终末期肾病并发症风险预测系统

技术领域

本发明涉及一种医疗健康信息技术领域，尤其涉及一种基于对比学习的终末期肾病并发症风险预测系统。

背景技术

终末期肾病病程长，在长期的治疗过程中可能发生多种并发疾病，包括血管通路感染、高血压、冠心病、失眠、抑郁等，严重影响患者生存质量。因此，对终末期肾病并发症进行风险预测及早期干预十分必要。在长期的治疗过程中，医院电子信息系统随时间积累了大量的结构化医疗数据，包含了多维度、多尺度的临床特征以及多种类的结局事件标签。真实场景下的临床数据面临结构复杂、正负样本不均衡、部分类别样本量较少的问题，难以直接应用现有的机器学习方法获得有效的预测结果。当今对比学习已经广泛应用于各个领域，通过对比式的学习架构学习表征从而提升整体模型性能，但是将其应用于终末期肾病并发症风险预测仍然面临一些问题。一方面传统对比学习容易发生特征崩溃问题。自监督式的对比学习的一个弊端在于没有正负样例的修正，非常容易把所有输入映射到同一向量，从而发生特征崩溃问题。即使引入标签数据进行监督学习，虽然嵌入向量不会完全崩溃，但它们仍有可能会沿着特定的维度崩溃，这导致嵌入向量只能在较低维度的子空间中有效。另一方面，传统对比学习面向图像数据和文本数据，其数据扩增方法（如图像的翻转、变色、缩放等操作）并不适用于结构化的医疗数据。

本专利旨在克服现有技术的不足，针对终末期肾病场景下的复杂数据难以融合处理以及标签不均衡等问题，提出一种基于对比学习的终末期肾病并发症风险预测系统，构建终末期肾病并发症风险预测系统，为临床决策提供准确、有效的决策支持。

发明内容

本发明的目的在于提供一种基于对比学习的终末期肾病并发症风险预测系统，解决了现有技术中终末期肾病场景下的复杂数据难以融合处理以及标签不均衡的问题。

本发明采用的技术方案如下：

一种基于对比学习的终末期肾病并发症风险预测系统，包括：

终末期肾病数据准备模块，用于利用医院电子信息系统和日常监测设备提取患者的结构化数据，并对所述结构化数据处理得到扩增结构化数据；

并发症风险预测模块，用于构建并发症表征学习模型和并发症风险预测模型，将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征，并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。

进一步地，所述终末期肾病数据准备模块具体包括：

数据获取单元，用于利用医院电子信息系统和日常监测设备提取结构化数据；

数据清洗单元，用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作，得到静态数据、一维时序数据和二维时序数据；

数据融合单元，用于对所述一维时序数据和所述二维时序数据分别采用一维卷积、二维卷积操作得到的一维压缩数据和所述静态数据进行拼接后得到原始融合特征；

数据扩增单元，用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法，得到扩增结构化数据。

进一步地，所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。

进一步地，所述数据扩增单元具体包括：

融合特征组件：用于将发生终末期肾病并发症的患者作为正样本，未发生终末期肾病并发症的患者作为负样本，以所述原始融合特征来表示正样本和负样本，将所述正样本和所述负样本的原始融合特征进行归一化操作，得到融合特征；

倾向性评分组件：用于任意选取所述融合特征的一个维度作为干预变量，所述融合特征的其余维度作为协变量集，通过损失函数优化，得到倾向性评分；

匹配组件：用于所有所述正样本构成正样本全集，所有所述负样本构成负样本全集，所述正样本全集基于所述倾向性评分匹配所述负样本全集中的负样本子集；

正样本扩增组件：用于对所述正样本全集通过SMOTE算法获得扩增正样本，所述正样本全集和所述扩增正样本构成正样本扩增集；

负样本扩增组件：用于对所述负样本子集通过SMOTE算法获得扩增负样本，所述负样本子集和所述扩增负样本构成负样本扩增集；

扩增组件：用于将所述正样本扩增集和所述负样本扩增集共同构成扩增结构化数据。

进一步地，所述并发症风险预测模块具体包括：

并发症表征学习模型构建单元：用于构建并发症表征学习模型；

并发症风险预测模型构建单元：用于构建并发症风险预测模型；

并发症表征学习单元：用于对所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征；

风险预测单元：用于将所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。

进一步地，所述并发症表征学习模型构建单元具体包括：

并发症表征学习模型定义组件：用于构建网络结构和总损失函数；

并发症表征学习模型优化组件：用于通过梯度下降法对所述网络结构中的参数进行优化，使得总损失函数达到收敛，完成并发症表征学习模型的构建。

进一步地，所述并发症表征学习模型定义组件具体包括：

参数定义块：用于定义网络结构的超参数，包括编码器和投影器；

特征归一块：用于将所述扩增结构化数据成对的输入至所述编码器，得到初始的并发症表征，所述初始的并发症表征通过所述投影器得到对比表征，所述对比表征经过特征归一化操作得到归一化表征；

总损失定义块：用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数。

进一步地，所述并发症风险预测模型构建单元具体包括：

并发症风险预测模型定义组件：用于定义终末期肾病并发症风险预测网络的网络结构，并选择所述终末期肾病并发症风险预测网络的激活函数和损失函数、优化方法；

并发症风险预测模型优化组件：用于利用优化方法对所述并发症风险预测网络进行训练，完成并发症风险预测模型的构建。

本发明的有益效果是：

1、提出基于倾向性得分的数据扩增和正负样本匹配的方法，以扩增结构化的终末期肾病数据，并解决正负样本不均衡的问题。

2、提出分层对比的学习架构，针对扩增数据、同类别数据、不同类别数据在不同层次进行相似性比较，使用协方差项、方差项、类别相似度量项、扩增相似度量项构建对比损失函数，以更全面的视角从多个角度防止特征崩溃现象，获得好的表征效果，从而提高模型性能。

3、传统倾向性评分匹配方法仅能处理二分类变量，本发明改进了倾向性评分的损失优化方法，使其可以处理连续值的变量。

附图说明

图1为本发明一种基于对比学习的终末期肾病并发症风险预测系统示意图；

图2为本发明一种基于对比学习的终末期肾病并发症风险预测方法流程图；

图3为本发明实施例终末期肾病数据准备模块示意图；

图4为本发明实施例并发症风险预测模块示意图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，一种基于对比学习的终末期肾病并发症风险预测系统，包括：

所述终末期肾病数据准备模块具体包括：

所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。

所述数据扩增单元具体包括：

所述并发症风险预测模块具体包括：

所述并发症表征学习模型构建单元具体包括：

所述并发症表征学习模型定义组件具体包括：

所述并发症风险预测模型构建单元具体包括：

参见图2，一种基于对比学习的终末期肾病并发症风险预测方法，包括以下步骤：

步骤S1：利用医院电子信息系统和日常监测设备通过终末期肾病数据准备模块提取患者的结构化数据，并对所述结构化数据处理得到扩增结构化数据；

步骤S2：通过并发症风险预测模块构建并发症表征学习模型和并发症风险预测模型，将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征，并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。

实施例：

参见图3，终末期肾病数据准备模块，用于利用医院电子信息系统和日常监测设备提取患者的结构化数据，并对所述结构化数据处理得到扩增结构化数据；

数据获取单元，用于利用医院电子信息系统和日常监测设备提取结构化数据；所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据；人口统计学数据：性别、年龄、民族、地区；手术数据：主要是血管通路手术信息；用药数据：透析方案、并发症用药等；化验数据：肌酐、尿素氮等；诊断数据：并发症；日常监测数据：血压、体重等。

数据清洗单元，用于对所述结构化数据进行缺失值处理、错误值的检测、重复数据的消除和/或不一致性的消除操作，得到静态数据、一维时序数据和二维时序数据；数据清洗单元主要筛除不符合常理的脏数据。以血压数据为例，首先筛除包含特殊字符的血压数据。其次，筛除收缩压超过250mmHg或小于60mmHg的数据。

数据融合单元主要融合多维度、多尺度的临床结构化数据特征，将之规整为统一结构，方便后续方法使用。结构化数据主要包括性别、年龄等静态数据，肌酐、尿素氮等一维时序数据，以及血压（单次血液透析过程内部、多次血液透析过程之间两个时间维度）等二维时序数据。

数据扩增单元，用于将所述原始融合特征采用倾向性得分匹配与SMOTE相结合的数据扩增方法，得到扩增结构化数据；数据扩增单元主要用于增加样本多样性并解决正负样本不均衡的问题。本发明采用倾向性得分匹配与SMOTE相结合的数据扩增方法，以扩增结构化的终末期肾病数据，并解决正负样本不均衡的问题。

融合特征组件：用于将发生终末期肾病并发症的患者作为正样本，未发生终末期肾病并发症的患者作为负样本，以所述原始融合特征来表示正样本和负样本，将所述正样本和所述负样本的原始融合特征进行归一化操作，得到融合特征；本实施例具体利用发生心血管并发症的患者作为正样本，未发生心血管并发症的患者作为负样本；

对所述正样本和所述负样本进行0-1归一化操作，归一化后样本x的融合特征为

(x¹, x²,···, x^m)，

。

其中，

表示第m维的原始融合特征，

表示第m维原始融合特征的最小值，

表示第m维原始融合特征的最大值。

选择所述融合特征x的任意一个维度

(v=1,2,···,m)作为干预变量，其余维度

=（

···,

）为协变量集，以

拟合

，即

作为干预变量

的倾向性评分。

通过损失函数

来优化参数

，优化方法可选梯度下降adam法等。其中||∙||₁表示L₁范数，n为总样本量，

为第i个样本的第v个变量，

为

的倾向性评分，即

。

所有所述正样本构成正样本全集记作

；所有所述负样本构成负样本全集记作

。选择任意所述正样本

，所述正样本

的融合特征表示为

。选择任意特征b作为所述正样本

的干预变量

，则所述正样本

的倾向性评分为

，基于倾向性评分匹配合适的负样本

，负样本

的融合特征表示为

，使得

，其中

。基于以上匹配方法，匹配选取与正样本全集

匹配的负样本子集

。

在正样本全集

中选取与正样本

马氏距离d最近的u个相似样本

、

、···、

。其中样本

与样本

的马氏距离

，其中

是协方差矩阵，

。基于SMOTE算法获得u个扩增正样本

、

、···、

。扩增正样本

的融合特征表示为（

,

,···,

），其中

。正样本全集

及其扩增正样本构成正样本扩增集。

负样本

，在负样本全集

中选取与负样本

马氏距离d最近的u个相似负样本

、

、···、

。其中负样本

与样本

的马氏距离

，其中

是协方差矩阵，

。基于SMOTE算法获得u个扩增负样本

、

、···、

。扩增负样本

的融合特征表示为（

,

,···,

），其中

。负样本子集

及其扩增负样本构成负样本扩增集。

参见图4，并发症风险预测模块，用于构建并发症表征学习模型和并发症风险预测模型，将所述扩增结构化数据通过所述并发症表征学习模型训练学习得到并发症表征，并利用所述并发症表征通过所述并发症风险预测模型进行终末期肾病并发症风险预测。

参数定义块：用于定义网络结构的超参数，包括编码器

和投影器

；

编码器为5层全连接网络，节点数为1024、512、256、128、64，激活函数为relu；投影器

为3层注意力网络，节点数64,128,256，激活函数为relu；

特征归一块：用于将所述扩增结构化数据成对的输入至所述编码器

，得到初始的并发症表征，所述初始的并发症表征通过所述投影器

得到对比表征，所述对比表征经过特征归一化操作得到归一化表征；

将扩增结构化数据

成对的输入编码器

，得到初始的并发症表征

，初始的并发症表征经过投影器得到对比表征

，对比表征经过特征归一化操作F-norm得到归一化表征

。其中

是对比表征Z特征维度的均值，

是对比表征Z特征维度的标准差。

总损失定义块：用于利用归一化表征、协方差项、方差项、类别相似度量项和扩增相似度量项构建总损失函数；

为了防止特征崩溃现象，本发明使用协方差项

、

，方差项

、

，类别相似度量项

、扩增相似度量项

构建总损失函数：

其中N为随机抽样一个批次的正样本量，由于每个正样本匹配一个负样本且各自扩增u个样本，

为扩增后一个批次的样本量，其中包含扩增样本、同类别样本和不同类别样本。对

个样本随机成对抽样构成上文所述成对扩增结构化数据(X,X’)。本发明令

，

。

作为超参数由网格搜索获得最优解。

其中，类别相似度量项度量了整个批次样本成对输入的类别相似性。具体公式为

其中

表示向量

的模，

表示向量

的模，

表示样本i与j之间的余弦距离，

表示样本i与k之间的余弦距离。

仅在

时为1，否则为0。

表示样本i的类别标签，

表示该终末期肾病患者发生心血管并发症，

表示该终末期肾病患者未发生心血管并发症，

同理，

表示样本i与j同类别。

仅在

时为1，否则为0；

仅在

时为1，否则为0；

仅在

时为1，否则为0。

作为损失项，约束同类样本（

，

，式中分子）的余弦相似度尽可能大，不同类样本（

，

，式中分母）的余弦相似度尽可能小。

其中，扩增相似度量项

)的具体公式为：

式中

表示样本i的扩增标签，

表示样本i和样本j由同一个样本扩增得到，

表示样本i和样本j由不同样本扩增得到。

作为损失项，约束扩增样本（

，

，式中分子）的余弦相似度尽可能大，非扩增样本（

，

，式中分母）的余弦相似度尽可能小。本发明结合类别相似度量项

以及扩增相似度量项

，使得同类别样本在表征空间尽可能近，不同类别样本在表征空间尽可能远离，在此基础之上使扩增样本在表征空间进一步靠近，非扩增样本在表征空间远离，从而达到减少特征崩溃的目的。

其中，方差项

详细公式为：

式中m是

的维度，

表示

的第j维的特征，Var表示方差算子，

表示

第j维的方差。上式原型是hing-loss，使得

在各个维度的方差推向1，使得

在各个维度不会崩溃到单一值。

同理。

其中，协方差项

详细公式为：

上式表示

各个不同维度之间协方差的和。上式作为损失项，使得

不同维度之间的冗余信息尽可能少。换言之，上式使得

各个不同维度尽可能不同，从而减少特征崩溃的发生。

并发症表征学习模型优化组件：用于通过梯度下降法对所述网络结构中的参数进行优化，使得总损失函数达到收敛，完成并发症表征学习模型的构建；

通过对比总损失函数L训练编码器

及投影器

，（以预测心血管并发症为例）目标是获得终末期肾病患者心血管并发症发生相关的对比表征，使得同类别的表征靠近，不同类别的表征远离，扩增样本的表征靠近，非扩增样本表征远离。优化方法可选梯度下降adam法等。

首先，定义3层全连接网络作终末期肾病并发症风险预测网络

的网络结构，终末期肾病并发症风险预测网络

的网络结构节点数依次为16，4，1；

选择终末期肾病并发症风险预测网络

全连接层的激活函数为relu，输出层的激活函数为sigmoid，损失函数为交叉熵损失函数，优化方法为adam法；利用优化方法adam法对所述并发症风险预测网络的权值参数进行训练，完成并发症风险预测模型的构建。

当对比总损失L收敛后，冻结编码器

的权值参数，训练终末期肾病并发症风险预测网络

的权值参数。

以终末期肾病心血管并发症预测为例，样本分批次输入模型。一个批次的样本包含N个正样本（发生心血管并发症）及其uN个扩增正样本，以及匹配的N个负样本及uN个扩增负样本，总计2N（u+1）个样本。标签y=1表示发生心血管并发症，y=0表示未发生心血管并发症。输出为终末期肾病患者发生心血管并发症的概率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，包括：

2.如权利要求1所述的一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，所述终末期肾病数据准备模块具体包括：

3.如权利要求1所述的一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，所述结构化数据包括人口统计学数据、手术数据、用药数据、化验数据、诊断数据和日常监测数据。

4.如权利要求2所述的一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，所述数据扩增单元具体包括：

5.如权利要求1所述的一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，所述并发症风险预测模块具体包括：

6.如权利要求5所述的一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，所述并发症表征学习模型构建单元具体包括：

7.如权利要求6所述的一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，所述并发症表征学习模型定义组件具体包括：

8.如权利要求5所述的一种基于对比学习的终末期肾病并发症风险预测系统，其特征在于，所述并发症风险预测模型构建单元具体包括：