CN115019923A

CN115019923A - 一种基于对比学习的电子病历数据预训练方法

Info

Publication number: CN115019923A
Application number: CN202210814501.8A
Authority: CN
Inventors: 李芳芳; 伍诗萌; 曾永哲; 汤达夫
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-09-06
Anticipated expiration: 2042-07-11
Also published as: CN115019923B

Abstract

本发明提供了一种基于对比学习的电子病历数据预训练方法，包括以下步骤：将每个电子病历数据采用不同类别、不同属性的方式建立病历样本数据库；采用数据分级和数据归一化对数据库内的数据进行预处理；基于属性距离采样每条数据的正例样本数据和负例样本数据；对所有数据以及其对应的正例样本数据和负例样本数据进行一一训练，得到每条数据的特征向量和预测值；再根据所有数据的特征向量及其预测值计算损失函数，并根据损失函数对神经网络模型的权重矩阵进行更新；判断神经网络模型的训练是否达到停止条件，若达到，则训练结束，并输出每条数据的特征向量和预测值；若未达到，则对数据进行新一轮的训练，直到达到神经网络模型训练的停止条件。

Description

一种基于对比学习的电子病历数据预训练方法

技术领域

本发明涉及数据训练技术领域，特别是涉及一种基于对比学习的电子病历数据预训练方法。

背景技术

数据挖掘技术的快速发展，为电子病历的应用提供了有力的技术支持。利用先进的数据挖掘技术对相关医疗病历数据进行分析处理，发掘病历数据中潜在的有用信息和规律，不仅可以应用于临床研究，推动医疗事业的发展与进步，同时，也可以对医生的诊断提供辅助支持，弥补各医院医疗资源紧张的问题。其中，将数据挖掘技术用于术后感染预测，尤其是对于脑积水分流手术这样感染率较高的手术，有助于帮助患者提前预防、提前发现、提前治疗，大大减少因术后并发症给患者所带来的灾难，对患者和整个医疗事业的发展都具有很重要的现实意义。

然而，术后感染的真实数据往往具有类别不平衡且不同类别数据重叠严重的特点，传统的预测方法在不平衡重叠数据的预测上往往表现不佳。不平衡问题是指一个类别(多数类)的样本数量远远超过另一类(少数类)。术后感染发生率一般总体很低，因此，术后感染阳性与阴性比例存在严重的不平衡。这种类别不平衡性会导致预测模型预测结果倾向于多数类。解决类别不平衡问题的方法一种是在数据层面上平衡数据集类别分布，包括欠采样技术和过采样技术；另一种方法是修改分类器，如基于代价敏感学习改造预测模型。当不同类别的实例也存在重叠时，学习任务将变得更具挑战性。

近今年，已有一些最新的研究证明了对比学习在电子病历数据中的潜在效果，尽管目前相关的研究较少，但是对比学习已被应用于电子病历数据以更稳健的学习数据模式。Kiyasseh等创建了CLOCS，这是一系列针对未标记心脏生理数据的对比学习方法，用于下游任务，如更好地量化患者相似性以进行疾病检测。Kostas等创建了BENDR，它利用变压器和对比性自我监督学习来更好地学习脑电数据的表示。进入电子病历数据领域，Li等构建了一个框架，通过利用分布式噪声对比估计，增强了跨多个站点的常见疾病的预测性能，而无需共享数据。Chen等使用转换器和对比学习来学习电子病历数据的嵌入表示法，并表明这些表示法能够在疾病检索任务中进行更好的预测。很明显，对比学习在医疗数据领域的潜在效用，特别是电子病历，才刚刚开始。

发明内容

本发明提供了一种基于对比学习的电子病历数据预训练方法，包括以下步骤：

步骤一、将每个电子病历数据采用不同类别、不同属性的方式建立病历样本数据库；

步骤二、采用数据分级和数据归一化对数病历样本数据库内的数据进行预处理；

步骤三、基于属性距离采样每条数据的正例样本数据和负例样本数据；

步骤四、利用对比学习的方法对病历样本数据库中的数据进行训练，具体包括：

对病历样本数据库中的所有数据以及其对应的正例样本数据和负例样本数据进行一一训练，得到每条数据的特征向量和预测值；再根据所有数据的特征向量及其预测值计算损失函数，并根据损失函数对神经网络模型的权重矩阵进行更新；

判断神经网络模型的训练是否达到停止条件，若达到，则训练结束，并输出每条数据的特征向量和预测值；若未达到，则对数据进行新一轮的训练，直到达到神经网络模型训练的停止条件。

可选的，基于属性距离采样每条数据的正例样本数据和负例样本数据的具体过程如下：

通过下式计算各个数据彼此之间的属性距离Dist(X_a，X_b)：

其中：X_a为病历样本数据库中的第a个数据，X_b为病历样本数据库中的第b个数据，每个数据具有m个维度的属性值，X_aq表示数据X_a的第q维属性的值，X_bq表示数据X_b的第q维属性的值；a，b＝1，2，…N，N为病历样本数据库的数据总个数；a≠b，m≥1，q＝1，2，…m2；

对于具有C个类别的病历样本数据库中的所有数据X_all，针对病历样本数据库中的每一个原始数据X_p∈X_all，从该数据同个类别的其余数据中提取出距离原始数据X_p的属性距离最小的K个样本，作为原始数据X_p的正例样本数据

从病历样本数据库的不同于原始数据X_p的其余C-1个类别中的每个类别数据中提取出距离原始数据X_p的属性距离最大的K个样本，所有的(C-1)K个样本作为该数据的负例样本数据

其中：K≥1；p＝1，2，…N；i＝1，2，…K；j＝1，2，…(C-1)K；原始数据X_p为病历样本数据库中的任意一个数据。

可选的，对数据以及其对应的正例样本数据和负例样本数据进行训练得到该条数据的特征向量和预测值，具体操作如下：

利用对比学习的方法对某条数据以及其对应的正例样本数据和负例样本数据进行训练，并在训练过程中，通过对该原始数据以及其正例样本数据和负例样本数据之间相似性的调整，从而充分学习到该原始数据的特征表示；

通过三层神经网络模型对该原始数据以及该条数据的正例样本数据和负例样本数据进行训练，得到该原始数据的特征向量表示为z_p、其正例样本数据

的特征向量表示为z_pi ⁺、其负例样本数据

的特征向量表示为z_pj ^-以及其分类预测值y′。

可选的，通过三层神经网络模型对该原始数据以及该数据的正例样本数据和负例样本数据进行训练的具体过程如下：

I、将原始数据X_p以及其正例样本数据

和负例样本数据

通过Dense-＞ReLU->Dense层，得到原始数据X_p的特征向量表示z_p，其正例样本数据

的特征向量表示z_pi ⁺以及其负例样本数据

的特征向量表示z_pj ^-；

II、将原始数据X_p的特征向量z_p输入到softmax激活函数中，得到原始数据X_p的分类预测值y_p′。

可选的，根据损失函数对神经网络模型的权重矩阵进行更新的具体方法如下：

计算神经网络模型的损失函数：

L＝L_fl+βL^*

其中：L为损失函数，L_fl为焦点损失函数，β为控制损失大小的正则化系数且β＞0，L^*是作为正则化对比损失因子，y为真实值，y′为实际的输出值，τ为温度超参数且τ＞0；

利用损失梯度下降法更新神经网络模型每一层的权重矩阵。

与现有技术相比，本发明具有以下有益效果：

(1)本发明所提供的一种基于对比学习的电子病历数据预训练方法，该方法是一种自监督学习方法，在不需要人工标注数据的情况下，直接利用数据本身作为监督信息，充分学习样本数据特征；利用该方法对电子病历数据进行预训练，解决了电子病历因数据量稀疏、数据不平衡所导致的任务性能低下的问题，从而使得电子病历数据能够在分类、预测等任务上取得优秀的性能。

(2)本发明通过在现有的数据中通过采样的方式为数据构造正、负例样本，通过对比数据与正、负例样本之间的相似性来学习出数据的特征表示；并通过设计一种损失函数(即在焦点损失的基础上加入了一个正则化对比因子项)进行对比，利用对比学习的方法对电子病历数据进行预训练有效的解决了电子病历数据数据量稀疏、数据不平衡的问题，从而提高电子病历数据在预测、分类等任务上的性能。

(3)通过基于属性距离的采样策略构建正、负例样本，首先将数据属性通过数据分级和归一化等预处理方式转化为数值形式，这样就能使相似的属性在数值上更加接近；然后通过计算数据间的属性距离，以属性距离衡量数据间的相似性与差异性，属性距离越小的相似性越高，属性距离越大的差异性越高；以此方法构建正、负例样本，能够在数据的源头上保证数据与正例样本的相似性尽可能大，与负例样本的相似性尽可能小，与对比学习的核心思想相吻合，有利于提高后续对比学习训练任务的性能。

(4)利用本发明所提供的方法对电子病历数据进行预训练所得到的神经网络模型，经过少量的标签数据对模型进行微调后，在下游任务中(如分类)可以获得优秀的性能。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例中一种基于对比学习的电子病历数据预训练方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点等能够更加明确易懂，下面结合附图对本发明的具体实施方式做详细的说明。

实施例1：

参见图1所示，一种基于对比学习的电子病历数据预训练方法，用于对电子病历数据进行预训练，得到神经网络模型；具体包括以下步骤：

步骤一、建立病历样本数据库：根据病历中所包含的就诊科室、就诊人员性别、年龄、即往史、检查数据、就诊记录、确疹数据等数据采用不同属性和类别标签进行存储，以建立包含多项属性数据和类别标签的病历样本数据库；

步骤二、数据预处理：通过数据分级和数据归一化将病历样本数据库中各数据的属性转化成数值形式的属性的各数据属性转化为相应的数值形式；

步骤三、数据增强：利用基于属性距离的采样方式构造病历样本数据库中各数据的正负例样本，具体过程如下：

S3.1、计算各个数据彼此之间的属性距离Dist(X_a，X_b)：

其中：X_a为病历样本数据库中的第a(a＝1，2，…N，N为病历样本数据库的数据总个数)个数据，X_b为病历样本数据库中的第b(b≠a)个数据，每个数据具有m(m≥1)个维度的属性值，X_aq表示数据X_a的第q(q＝1，2，…m)维属性的值，X_bq表示数据X_b的第q维属性的值。

S3.2、对于具有C个类别的病历样本数据库中的所有数据X_all，针对病历样本数据库中的每一个原始数据X_p∈X_all，从该数据同个类别的其余数据中提取出距离原始数据X_p的属性距离最小的K个样本，作为原始数据X_p的正例样本数据

步骤四、利用对比学习的方法对原始数据X_p以及其正例样本数据

和负例样本数据

进行预训练，得到原始数据X_p以及其正例样本数据

和负例样本数据

的特征向量和原始数据X_p的预测值；

步骤五、重复步骤四，对病历样本数据库中的其他数据进行一一训练，得到每条数据的特征向量及其预测值；

步骤六、根据所有数据的特征向量及其预测值计算神经网络模型的损失函数，并根据损失函数对神经网络模型的权重矩阵进行更新。其具体方法如下：

步骤S6.1、在预训练过程中，通过对原始数据X_p以及其正例样本数据

和负例样本数据

之间相似性score的调整，从而充分学习到原始数据X_p的特征表示；其过程具体如下：

对原始数据X_p，对比学习的目标是学习一个编码器f使得：

其中：score是一个度量函数来衡量样本间的相似度，通常为余弦相似度。也就是说要使得原始数据X_p与该数据的正例样本数据

的相似性尽可能大，则与该数据的负例样本数据

的相似性尽可能小。

步骤S6.2、通过一个三层神经网络模型(该三层神经网络模型包括输入层、隐藏层和输出层，其中：隐藏层是一个全连接层+ReLU的结构，输出层是一个全连接层+softmax的结构)对原始数据X_p以及该数据的正例样本数据

和负例样本数据

进行训练；具体的训练过程如下：

首先，将原始数据X_p以及其正例样本数据

和负例样本数据

通过Dense-＞ReLU->Dense层，得到原始数据X_p以及其正例样本数据

和负例样本数据

的特征向量(其中：原始数据X_p的特征向量表示为z_p，其正例样本数据

的特征向量表示为z_pi ⁺，其负例样本数据

的特征向量表示为z_pj ^-)；

其次，将原始数据X_p的特征向量z_p输入到softmax激活函数中，得到原始数据X_p的分类预测值y_p′；

步骤S6.3、将特征向量z_p、z_pi ⁺和z_pj ^-以及分类预测值y_p′根据损失函数的计算方式，来计算神经网络模型的损失函数及其相应的损失梯度函数，再利用梯度下降法更新神经网络每一层的权重；

所述损失函数的计算具体如下：

结合对比损失和焦点损失，设计了一种融入正则化对比因子的基于焦点损失的损失函数计算方法，具体如下：

1)融入正则化对比因子的基于焦点损失的损失函数定义如下：

L＝L_fl+βL^*

其中：L为损失函数，L_fl为焦点损失函数，β(β＞0)为控制损失大小的正则化系数，L^*是作为正则化对比损失因子；

2)焦点损失函数首先在交叉熵损失的基础上加了一个因子γ(γ＞0)，其中使得减少易分类样本的损失，使得神经网络模型更关注于困难的、错分的样本数据(此处样本数据包括原始数据、正例样本数据和负例样本数据)；再引入一个平衡因子α(0＜α＜1)，用来平衡正例样本数据和负例样本数据本身数量比例不均的问题(即类别不均衡)：

其中：y为真实值，y′为实际的输出值。

其中：τ(τ＞0)为温度超参数。

步骤七、判定神经网络模型的训练是否达到训练停止条件，若达到，则输出病历样本数据库中所有数据的特征向量表示z_p和分类预测值y_p′；若未达到，则返回步骤四继续下一轮的训练。判断训练是否收敛的具体过程如下：

对于神经网络的训练一般是先设定一个固定的Epoch大小(100轮)，达到设定的轮次就停止训练。但是一般当模型的损失不再持续减小，就可以提前停止训练了。

应用对比学习模型对数据进行预训练的流程如下：

其中：权重矩阵W₁、W₂分别为隐藏层和输出层的权重矩阵，W₁是一个m×m的矩阵，W₂是一个m×C的矩阵。

W₁的表达式：

W₂的表达式：

采用本实施例的方案，以脑积水电子病历数据为例，应用上述所述的基于对比学习的电子病历数据预训练方法，具体过程如下：

一、建立病历样本数据库：

①设脑积水病历数据有400条(记为X_all)，其中20条为感染类别的数据、380条为未感染类别的数据(即400条数据分为感染和未感染2个类别)；

②设每条数据均具有40个维度的属性值以及1个类别标签值；

③将400条脑积水病历数据按类别、属性值以及标签值输入数据库内，以形成脑积水病历数据库。

二、数据预处理：

采用数据分级和数据归一化的方式对样本数据进行处理：对于从病历中提取出的病症属性，如果病患满足相应的病症，那么该病症的数值形式取值为“1”，否则取值为“0”；对于存在两种以上形式的属性，每个形式依次从“1”开始升序取值(以脑积水病因为例，引起脑积水的可能原因有先天性、肿瘤性、脑出血、外伤等形式，其对应的数值形式取值分别为“1”、“2”、“3”、“4”)；对于非连续型的数值属性，一种是根据人群种类进行划分，如年龄。另一种是根据临床的所给定的标准范围进行划分，分为低于正常范围、正常范围内、高于正常范围三种情况，依次取离散值“1”、“2”、“3”，如血红蛋白、腰穿压力值、脑脊液白细胞等；以年龄、血红蛋白为例，特征分级及离散化表示的具体实例如下表1、表2所示(其中，血红蛋白以男性为例做具体示例)。

表1年龄离散化表示

年龄	离散值
		0≤x≤1	1
1＜x≤6	2
		6＜x≤18	3
18＜x≤60	4
		60＜x	5

表2血红蛋白离散化表示

血红蛋白	离散值
		x＜120	1
120≤x≤160	2
		x＞160	3

对于连续型的数值属性，其数值巨有不同的量纲，因此需要对这些连续型的数值属性进行标准化处理，我们才有Max-Min标准化方法将数据放缩到[0,1]的数值区间。转换公式如下：

经过数据预处理后每一项属性都有对应的数值取值，类别标签值为0或1，其中：0表示未感染、1表示感染。如，某一条数据为：

[1,3,2,1,2,2,2,1,1,2,2,2,1,1,1,1,3,2,2,1,2,1,3,1,2,0.57,0.38,0.65,0.21,0.47,0.32,0.73,0.11,0.82,0.64,0.43,0.52,0.39,0.96,0.25,1]

其中：前40个数表示该条数据在对应的这一维属性上的属性值，最后一个数表示它的类别为“1”，即感染。

三、数据增强：

在计算任意两条数据间的属性距离时，则是将40个属性值一一对应，根据下面的公式计算，那么此时的m＝40。

例如：

X₁＝[1,3,2,1,2,2,2,1,2,2,2,2,1,1,1,1,3,2,2,1,2,1,3,1,2,0.57,0.38,0.65,0.21,0.47,0.32,0.73,0.11,0.82,0.64,0.43,0.52,0.39,0.96,0.25,1]；

X₂＝[2,3,1,1,2,2,1,1,1,2,1,2,2,2,1,1,2,1,1,1,2,1,2,1,2,0.45,0.32,0.53,0.37,0.27,0.64,0.59,0.41,0.53,0.87,0.95,0.19,0.24,0.44,0.83,1]；

则X₁和X₂的属性距离公式如下：

＝||1-2||₂+||3-3||₂+||2-1||₂+||1-1||₂+…+||0.25-0.83||₂＝3.529；

对于每个数据从该数据的同一类别数据中(除该数据之外的其他数据)选择属性距离最小的5个样本进行采样作为该数据的正例样本，然后从不同于该数据的另一个类别的数据中选择属性距离最大的5个样本，作为该数据的负例样本。

具体地，例如，某条数据的对应的类别是“感染”，那么在构造它的正例样本时，则是从“感染”的19(20-1)条数据中选择与它属性距离最小的5条数据作为它的正例样本；在构造它的负例样本时，则是从“未感染”的380条数据中选择与它属性距离最大的5条数据作为它的负例样本。

于是，对于每个数据X_p∈X_all其中，p＝1,2,…,400)，都构造了5个正例样本数据

以及5个负例样本数据

四、数据训练：

利用对比学习的方法对病历样本数据库中的每个数据X_p∈X_all以及其5个正例样本数据、5个负例样本数据进行预训练；并在对上述数据进行预训练的过程中，通过对数据X_p以及其5个正例样本数据、5个负例样本数据之间相似性score的调整，从而充分学习到病历样本数据库中的每个数据X_p的特征表示zp以及每个数据所对应的5个正例样本数据的特征向量表示

和5个负例样本数据的特征向量表示

其过程如下：

A、对原始数据X_p，对比学习的目标是学习一个编码器f使得：

的相似性尽可能大，则与该数据的负例样本数据

的相似性尽可能小。

B、通过一个三层神经网络(输入层-隐藏层-输出层，其中：隐藏层是一个全连接层+ReLU的结构，输出层是一个全连接层+softmax的结构)对数据X_p及其正例样本数据和负例样本数据进行训练：首先将数据X_p以及其正例样本数据和负例样本数据通过Dense-＞ReLU->Dense层，得到数据X_p以及其正例样本数据和负例样本数据的特征向量；

C、将数据X_p的特征向量z_p输入到softmax激活函数中，得到数据X_p的分类预测值y_p′；

D、将数据X_p特征向量及其正例样本数据的特征向量、负例样本数据的特征向量以及分类预测值y_p′根据损失函数的计算方式，来计算神经网络模型的损失及其相应的损失梯度，再利用梯度下降法更新神经网络每一层的权重；

所述损失函数的计算具体如下：

L＝L_fl+βL^*

其中：y为真实值，y′为实际的输出值。

其中：τ(τ>0)为温度超参数。

步骤五、判定神经网络模型的训练是否达到训练停止条件，若达到，则输出病历样本数据库中每条数据的特征向量表示及其分类预测值；若未达到，则返回步骤四继续新一轮的训练，直到达到神经网络模型的训练停止条件；完成神经网络模型的训练。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对比学习的电子病历数据预训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于对比学习的电子病历数据预训练方法，其特征在于，基于属性距离采样每条数据的正例样本数据和负例样本数据的具体过程如下：

通过下式计算各个数据彼此之间的属性距离Dist(X_a，X_b)：

其中：X_a为病历样本数据库中的第a个数据，X_b为病历样本数据库中的第b个数据，每个数据具有m个维度的属性值，X_aq表示数据X_a的第q维属性的值，X_bq表示数据X_b的第q维属性的值；a，b＝1，2，…N，N为病历样本数据库的数据总个数；a≠b，m≥1，q＝1，2，…m；

对于具有C个类别的病历样本数据库的所有数据X_all，针对病历样本数据库中的每一个原始数据X_p∈X_all，从该数据同个类别的其余数据中提取出距离原始数据X_p的属性距离最小的K个样本，作为原始数据X_p的正例样本数据

3.根据权利要求2所述的基于对比学习的电子病历数据预训练方法，其特征在于，对数据以及其对应的正例样本数据和负例样本数据进行训练得到该条数据的特征向量和预测值，具体操作如下：

的特征向量表示为z_pi ⁺、其负例样本数据

的特征向量表示为z_pj ^-以及其分类预测值y_p′。

4.根据权利要求3所述的基于对比学习的电子病历数据预训练方法，其特征在于，通过三层神经网络模型对该原始数据以及该数据的正例样本数据和负例样本数据进行训练的具体过程如下：

I、将原始数据X_p以及其正例样本数据

和负例样本数据

的特征向量表示z_pi ⁺以及其负例样本数据

的特征向量表示z_pj ^-；

5.根据权利要求4所述的基于对比学习的电子病历数据预训练方法，其特征在于，根据损失函数对神经网络模型的权重矩阵进行更新的具体方法如下：

计算神经网络模型的损失函数：

L＝L_fl+βL^*

利用损失梯度下降法更新神经网络模型每一层的权重矩阵。