CN115019923A - 一种基于对比学习的电子病历数据预训练方法 - Google Patents

一种基于对比学习的电子病历数据预训练方法 Download PDF

Info

Publication number
CN115019923A
CN115019923A CN202210814501.8A CN202210814501A CN115019923A CN 115019923 A CN115019923 A CN 115019923A CN 202210814501 A CN202210814501 A CN 202210814501A CN 115019923 A CN115019923 A CN 115019923A
Authority
CN
China
Prior art keywords
data
training
medical record
sample
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210814501.8A
Other languages
English (en)
Other versions
CN115019923B (zh
Inventor
李芳芳
伍诗萌
曾永哲
汤达夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210814501.8A priority Critical patent/CN115019923B/zh
Publication of CN115019923A publication Critical patent/CN115019923A/zh
Application granted granted Critical
Publication of CN115019923B publication Critical patent/CN115019923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于对比学习的电子病历数据预训练方法,包括以下步骤:将每个电子病历数据采用不同类别、不同属性的方式建立病历样本数据库;采用数据分级和数据归一化对数据库内的数据进行预处理;基于属性距离采样每条数据的正例样本数据和负例样本数据;对所有数据以及其对应的正例样本数据和负例样本数据进行一一训练,得到每条数据的特征向量和预测值;再根据所有数据的特征向量及其预测值计算损失函数,并根据损失函数对神经网络模型的权重矩阵进行更新;判断神经网络模型的训练是否达到停止条件,若达到,则训练结束,并输出每条数据的特征向量和预测值;若未达到,则对数据进行新一轮的训练,直到达到神经网络模型训练的停止条件。

Description

一种基于对比学习的电子病历数据预训练方法
技术领域
本发明涉及数据训练技术领域,特别是涉及一种基于对比学习的电子病历数据预训练方法。
背景技术
数据挖掘技术的快速发展,为电子病历的应用提供了有力的技术支持。利用先进的数据挖掘技术对相关医疗病历数据进行分析处理,发掘病历数据中潜在的有用信息和规律,不仅可以应用于临床研究,推动医疗事业的发展与进步,同时,也可以对医生的诊断提供辅助支持,弥补各医院医疗资源紧张的问题。其中,将数据挖掘技术用于术后感染预测,尤其是对于脑积水分流手术这样感染率较高的手术,有助于帮助患者提前预防、提前发现、提前治疗,大大减少因术后并发症给患者所带来的灾难,对患者和整个医疗事业的发展都具有很重要的现实意义。
然而,术后感染的真实数据往往具有类别不平衡且不同类别数据重叠严重的特点,传统的预测方法在不平衡重叠数据的预测上往往表现不佳。不平衡问题是指一个类别(多数类)的样本数量远远超过另一类(少数类)。术后感染发生率一般总体很低,因此,术后感染阳性与阴性比例存在严重的不平衡。这种类别不平衡性会导致预测模型预测结果倾向于多数类。解决类别不平衡问题的方法一种是在数据层面上平衡数据集类别分布,包括欠采样技术和过采样技术;另一种方法是修改分类器,如基于代价敏感学习改造预测模型。当不同类别的实例也存在重叠时,学习任务将变得更具挑战性。
近今年,已有一些最新的研究证明了对比学习在电子病历数据中的潜在效果,尽管目前相关的研究较少,但是对比学习已被应用于电子病历数据以更稳健的学习数据模式。Kiyasseh等创建了CLOCS,这是一系列针对未标记心脏生理数据的对比学习方法,用于下游任务,如更好地量化患者相似性以进行疾病检测。Kostas等创建了BENDR,它利用变压器和对比性自我监督学习来更好地学习脑电数据的表示。进入电子病历数据领域,Li等构建了一个框架,通过利用分布式噪声对比估计,增强了跨多个站点的常见疾病的预测性能,而无需共享数据。Chen等使用转换器和对比学习来学习电子病历数据的嵌入表示法,并表明这些表示法能够在疾病检索任务中进行更好的预测。很明显,对比学习在医疗数据领域的潜在效用,特别是电子病历,才刚刚开始。
发明内容
本发明提供了一种基于对比学习的电子病历数据预训练方法,包括以下步骤:
步骤一、将每个电子病历数据采用不同类别、不同属性的方式建立病历样本数据库;
步骤二、采用数据分级和数据归一化对数病历样本数据库内的数据进行预处理;
步骤三、基于属性距离采样每条数据的正例样本数据和负例样本数据;
步骤四、利用对比学习的方法对病历样本数据库中的数据进行训练,具体包括:
对病历样本数据库中的所有数据以及其对应的正例样本数据和负例样本数据进行一一训练,得到每条数据的特征向量和预测值;再根据所有数据的特征向量及其预测值计算损失函数,并根据损失函数对神经网络模型的权重矩阵进行更新;
判断神经网络模型的训练是否达到停止条件,若达到,则训练结束,并输出每条数据的特征向量和预测值;若未达到,则对数据进行新一轮的训练,直到达到神经网络模型训练的停止条件。
可选的,基于属性距离采样每条数据的正例样本数据和负例样本数据的具体过程如下:
通过下式计算各个数据彼此之间的属性距离Dist(Xa,Xb):
Figure BDA0003740526070000021
其中:Xa为病历样本数据库中的第a个数据,Xb为病历样本数据库中的第b个数据,每个数据具有m个维度的属性值,Xaq表示数据Xa的第q维属性的值,Xbq表示数据Xb的第q维属性的值;a,b=1,2,…N,N为病历样本数据库的数据总个数;a≠b,m≥1,q=1,2,…m2;
对于具有C个类别的病历样本数据库中的所有数据Xall,针对病历样本数据库中的每一个原始数据Xp∈Xall,从该数据同个类别的其余数据中提取出距离原始数据Xp的属性距离最小的K个样本,作为原始数据Xp的正例样本数据
Figure BDA0003740526070000022
从病历样本数据库的不同于原始数据Xp的其余C-1个类别中的每个类别数据中提取出距离原始数据Xp的属性距离最大的K个样本,所有的(C-1)K个样本作为该数据的负例样本数据
Figure BDA0003740526070000023
其中:K≥1;p=1,2,…N;i=1,2,…K;j=1,2,…(C-1)K;原始数据Xp为病历样本数据库中的任意一个数据。
可选的,对数据以及其对应的正例样本数据和负例样本数据进行训练得到该条数据的特征向量和预测值,具体操作如下:
利用对比学习的方法对某条数据以及其对应的正例样本数据和负例样本数据进行训练,并在训练过程中,通过对该原始数据以及其正例样本数据和负例样本数据之间相似性的调整,从而充分学习到该原始数据的特征表示;
通过三层神经网络模型对该原始数据以及该条数据的正例样本数据和负例样本数据进行训练,得到该原始数据的特征向量表示为zp、其正例样本数据
Figure BDA0003740526070000031
的特征向量表示为zpi +、其负例样本数据
Figure BDA0003740526070000032
的特征向量表示为zpj -以及其分类预测值y′。
可选的,通过三层神经网络模型对该原始数据以及该数据的正例样本数据和负例样本数据进行训练的具体过程如下:
I、将原始数据Xp以及其正例样本数据
Figure BDA0003740526070000033
和负例样本数据
Figure BDA0003740526070000034
通过Dense->ReLU->Dense层,得到原始数据Xp的特征向量表示zp,其正例样本数据
Figure BDA0003740526070000035
的特征向量表示zpi +以及其负例样本数据
Figure BDA0003740526070000036
的特征向量表示zpj -
II、将原始数据Xp的特征向量zp输入到softmax激活函数中,得到原始数据Xp的分类预测值yp′。
可选的,根据损失函数对神经网络模型的权重矩阵进行更新的具体方法如下:
计算神经网络模型的损失函数:
L=Lfl+βL*
Figure BDA0003740526070000037
Figure BDA0003740526070000038
其中:L为损失函数,Lfl为焦点损失函数,β为控制损失大小的正则化系数且β>0,L*是作为正则化对比损失因子,y为真实值,y′为实际的输出值,τ为温度超参数且τ>0;
利用损失梯度下降法更新神经网络模型每一层的权重矩阵。
与现有技术相比,本发明具有以下有益效果:
(1)本发明所提供的一种基于对比学习的电子病历数据预训练方法,该方法是一种自监督学习方法,在不需要人工标注数据的情况下,直接利用数据本身作为监督信息,充分学习样本数据特征;利用该方法对电子病历数据进行预训练,解决了电子病历因数据量稀疏、数据不平衡所导致的任务性能低下的问题,从而使得电子病历数据能够在分类、预测等任务上取得优秀的性能。
(2)本发明通过在现有的数据中通过采样的方式为数据构造正、负例样本,通过对比数据与正、负例样本之间的相似性来学习出数据的特征表示;并通过设计一种损失函数(即在焦点损失的基础上加入了一个正则化对比因子项)进行对比,利用对比学习的方法对电子病历数据进行预训练有效的解决了电子病历数据数据量稀疏、数据不平衡的问题,从而提高电子病历数据在预测、分类等任务上的性能。
(3)通过基于属性距离的采样策略构建正、负例样本,首先将数据属性通过数据分级和归一化等预处理方式转化为数值形式,这样就能使相似的属性在数值上更加接近;然后通过计算数据间的属性距离,以属性距离衡量数据间的相似性与差异性,属性距离越小的相似性越高,属性距离越大的差异性越高;以此方法构建正、负例样本,能够在数据的源头上保证数据与正例样本的相似性尽可能大,与负例样本的相似性尽可能小,与对比学习的核心思想相吻合,有利于提高后续对比学习训练任务的性能。
(4)利用本发明所提供的方法对电子病历数据进行预训练所得到的神经网络模型,经过少量的标签数据对模型进行微调后,在下游任务中(如分类)可以获得优秀的性能。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例中一种基于对比学习的电子病历数据预训练方法的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点等能够更加明确易懂,下面结合附图对本发明的具体实施方式做详细的说明。
实施例1:
参见图1所示,一种基于对比学习的电子病历数据预训练方法,用于对电子病历数据进行预训练,得到神经网络模型;具体包括以下步骤:
步骤一、建立病历样本数据库:根据病历中所包含的就诊科室、就诊人员性别、年龄、即往史、检查数据、就诊记录、确疹数据等数据采用不同属性和类别标签进行存储,以建立包含多项属性数据和类别标签的病历样本数据库;
步骤二、数据预处理:通过数据分级和数据归一化将病历样本数据库中各数据的属性转化成数值形式的属性的各数据属性转化为相应的数值形式;
步骤三、数据增强:利用基于属性距离的采样方式构造病历样本数据库中各数据的正负例样本,具体过程如下:
S3.1、计算各个数据彼此之间的属性距离Dist(Xa,Xb):
Figure BDA0003740526070000051
其中:Xa为病历样本数据库中的第a(a=1,2,…N,N为病历样本数据库的数据总个数)个数据,Xb为病历样本数据库中的第b(b≠a)个数据,每个数据具有m(m≥1)个维度的属性值,Xaq表示数据Xa的第q(q=1,2,…m)维属性的值,Xbq表示数据Xb的第q维属性的值。
S3.2、对于具有C个类别的病历样本数据库中的所有数据Xall,针对病历样本数据库中的每一个原始数据Xp∈Xall,从该数据同个类别的其余数据中提取出距离原始数据Xp的属性距离最小的K个样本,作为原始数据Xp的正例样本数据
Figure BDA0003740526070000052
从病历样本数据库的不同于原始数据Xp的其余C-1个类别中的每个类别数据中提取出距离原始数据Xp的属性距离最大的K个样本,所有的(C-1)K个样本作为该数据的负例样本数据
Figure BDA0003740526070000053
步骤四、利用对比学习的方法对原始数据Xp以及其正例样本数据
Figure BDA0003740526070000054
和负例样本数据
Figure BDA0003740526070000055
进行预训练,得到原始数据Xp以及其正例样本数据
Figure BDA0003740526070000056
和负例样本数据
Figure BDA0003740526070000057
的特征向量和原始数据Xp的预测值;
步骤五、重复步骤四,对病历样本数据库中的其他数据进行一一训练,得到每条数据的特征向量及其预测值;
步骤六、根据所有数据的特征向量及其预测值计算神经网络模型的损失函数,并根据损失函数对神经网络模型的权重矩阵进行更新。其具体方法如下:
步骤S6.1、在预训练过程中,通过对原始数据Xp以及其正例样本数据
Figure BDA0003740526070000058
和负例样本数据
Figure BDA0003740526070000059
之间相似性score的调整,从而充分学习到原始数据Xp的特征表示;其过程具体如下:
对原始数据Xp,对比学习的目标是学习一个编码器f使得:
Figure BDA0003740526070000061
其中:score是一个度量函数来衡量样本间的相似度,通常为余弦相似度。也就是说要使得原始数据Xp与该数据的正例样本数据
Figure BDA0003740526070000062
的相似性尽可能大,则与该数据的负例样本数据
Figure BDA0003740526070000063
的相似性尽可能小。
步骤S6.2、通过一个三层神经网络模型(该三层神经网络模型包括输入层、隐藏层和输出层,其中:隐藏层是一个全连接层+ReLU的结构,输出层是一个全连接层+softmax的结构)对原始数据Xp以及该数据的正例样本数据
Figure BDA0003740526070000064
和负例样本数据
Figure BDA0003740526070000065
进行训练;具体的训练过程如下:
首先,将原始数据Xp以及其正例样本数据
Figure BDA0003740526070000066
和负例样本数据
Figure BDA0003740526070000067
通过Dense->ReLU->Dense层,得到原始数据Xp以及其正例样本数据
Figure BDA0003740526070000068
和负例样本数据
Figure BDA00037405260700000612
的特征向量(其中:原始数据Xp的特征向量表示为zp,其正例样本数据
Figure BDA00037405260700000610
的特征向量表示为zpi +,其负例样本数据
Figure BDA00037405260700000611
的特征向量表示为zpj -);
其次,将原始数据Xp的特征向量zp输入到softmax激活函数中,得到原始数据Xp的分类预测值yp′;
步骤S6.3、将特征向量zp、zpi +和zpj -以及分类预测值yp′根据损失函数的计算方式,来计算神经网络模型的损失函数及其相应的损失梯度函数,再利用梯度下降法更新神经网络每一层的权重;
所述损失函数的计算具体如下:
结合对比损失和焦点损失,设计了一种融入正则化对比因子的基于焦点损失的损失函数计算方法,具体如下:
1)融入正则化对比因子的基于焦点损失的损失函数定义如下:
L=Lfl+βL*
其中:L为损失函数,Lfl为焦点损失函数,β(β>0)为控制损失大小的正则化系数,L*是作为正则化对比损失因子;
2)焦点损失函数首先在交叉熵损失的基础上加了一个因子γ(γ>0),其中使得减少易分类样本的损失,使得神经网络模型更关注于困难的、错分的样本数据(此处样本数据包括原始数据、正例样本数据和负例样本数据);再引入一个平衡因子α(0<α<1),用来平衡正例样本数据和负例样本数据本身数量比例不均的问题(即类别不均衡):
Figure BDA0003740526070000071
其中:y为真实值,y′为实际的输出值。
Figure BDA0003740526070000072
其中:τ(τ>0)为温度超参数。
步骤七、判定神经网络模型的训练是否达到训练停止条件,若达到,则输出病历样本数据库中所有数据的特征向量表示zp和分类预测值yp′;若未达到,则返回步骤四继续下一轮的训练。判断训练是否收敛的具体过程如下:
对于神经网络的训练一般是先设定一个固定的Epoch大小(100轮),达到设定的轮次就停止训练。但是一般当模型的损失不再持续减小,就可以提前停止训练了。
应用对比学习模型对数据进行预训练的流程如下:
Figure BDA0003740526070000073
Figure BDA0003740526070000081
其中:权重矩阵W1、W2分别为隐藏层和输出层的权重矩阵,W1是一个m×m的矩阵,W2是一个m×C的矩阵。
W1的表达式:
Figure BDA0003740526070000082
W2的表达式:
Figure BDA0003740526070000083
采用本实施例的方案,以脑积水电子病历数据为例,应用上述所述的基于对比学习的电子病历数据预训练方法,具体过程如下:
一、建立病历样本数据库:
①设脑积水病历数据有400条(记为Xall),其中20条为感染类别的数据、380条为未感染类别的数据(即400条数据分为感染和未感染2个类别);
②设每条数据均具有40个维度的属性值以及1个类别标签值;
③将400条脑积水病历数据按类别、属性值以及标签值输入数据库内,以形成脑积水病历数据库。
二、数据预处理:
采用数据分级和数据归一化的方式对样本数据进行处理:对于从病历中提取出的病症属性,如果病患满足相应的病症,那么该病症的数值形式取值为“1”,否则取值为“0”;对于存在两种以上形式的属性,每个形式依次从“1”开始升序取值(以脑积水病因为例,引起脑积水的可能原因有先天性、肿瘤性、脑出血、外伤等形式,其对应的数值形式取值分别为“1”、“2”、“3”、“4”);对于非连续型的数值属性,一种是根据人群种类进行划分,如年龄。另一种是根据临床的所给定的标准范围进行划分,分为低于正常范围、正常范围内、高于正常范围三种情况,依次取离散值“1”、“2”、“3”,如血红蛋白、腰穿压力值、脑脊液白细胞等;以年龄、血红蛋白为例,特征分级及离散化表示的具体实例如下表1、表2所示(其中,血红蛋白以男性为例做具体示例)。
表1年龄离散化表示
年龄 离散值
0≤x≤1 1
1<x≤6 2
6<x≤18 3
18<x≤60 4
60<x 5
表2血红蛋白离散化表示
血红蛋白 离散值
x<120 1
120≤x≤160 2
x>160 3
对于连续型的数值属性,其数值巨有不同的量纲,因此需要对这些连续型的数值属性进行标准化处理,我们才有Max-Min标准化方法将数据放缩到[0,1]的数值区间。转换公式如下:
Figure BDA0003740526070000091
经过数据预处理后每一项属性都有对应的数值取值,类别标签值为0或1,其中:0表示未感染、1表示感染。如,某一条数据为:
[1,3,2,1,2,2,2,1,1,2,2,2,1,1,1,1,3,2,2,1,2,1,3,1,2,0.57,0.38,0.65,0.21,0.47,0.32,0.73,0.11,0.82,0.64,0.43,0.52,0.39,0.96,0.25,1]
其中:前40个数表示该条数据在对应的这一维属性上的属性值,最后一个数表示它的类别为“1”,即感染。
三、数据增强:
在计算任意两条数据间的属性距离时,则是将40个属性值一一对应,根据下面的公式计算,那么此时的m=40。
例如:
X1=[1,3,2,1,2,2,2,1,2,2,2,2,1,1,1,1,3,2,2,1,2,1,3,1,2,0.57,0.38,0.65,0.21,0.47,0.32,0.73,0.11,0.82,0.64,0.43,0.52,0.39,0.96,0.25,1];
X2=[2,3,1,1,2,2,1,1,1,2,1,2,2,2,1,1,2,1,1,1,2,1,2,1,2,0.45,0.32,0.53,0.37,0.27,0.64,0.59,0.41,0.53,0.87,0.95,0.19,0.24,0.44,0.83,1];
则X1和X2的属性距离公式如下:
Figure BDA0003740526070000101
=||1-2||2+||3-3||2+||2-1||2+||1-1||2+…+||0.25-0.83||2=3.529;
对于每个数据从该数据的同一类别数据中(除该数据之外的其他数据)选择属性距离最小的5个样本进行采样作为该数据的正例样本,然后从不同于该数据的另一个类别的数据中选择属性距离最大的5个样本,作为该数据的负例样本。
具体地,例如,某条数据的对应的类别是“感染”,那么在构造它的正例样本时,则是从“感染”的19(20-1)条数据中选择与它属性距离最小的5条数据作为它的正例样本;在构造它的负例样本时,则是从“未感染”的380条数据中选择与它属性距离最大的5条数据作为它的负例样本。
于是,对于每个数据Xp∈Xall其中,p=1,2,…,400),都构造了5个正例样本数据
Figure BDA0003740526070000102
以及5个负例样本数据
Figure BDA0003740526070000103
四、数据训练:
利用对比学习的方法对病历样本数据库中的每个数据Xp∈Xall以及其5个正例样本数据、5个负例样本数据进行预训练;并在对上述数据进行预训练的过程中,通过对数据Xp以及其5个正例样本数据、5个负例样本数据之间相似性score的调整,从而充分学习到病历样本数据库中的每个数据Xp的特征表示zp以及每个数据所对应的5个正例样本数据的特征向量表示
Figure BDA0003740526070000111
和5个负例样本数据的特征向量表示
Figure BDA0003740526070000112
其过程如下:
A、对原始数据Xp,对比学习的目标是学习一个编码器f使得:
Figure BDA0003740526070000113
其中:score是一个度量函数来衡量样本间的相似度,通常为余弦相似度。也就是说要使得原始数据Xp与该数据的正例样本数据
Figure BDA0003740526070000114
的相似性尽可能大,则与该数据的负例样本数据
Figure BDA0003740526070000115
的相似性尽可能小。
B、通过一个三层神经网络(输入层-隐藏层-输出层,其中:隐藏层是一个全连接层+ReLU的结构,输出层是一个全连接层+softmax的结构)对数据Xp及其正例样本数据和负例样本数据进行训练:首先将数据Xp以及其正例样本数据和负例样本数据通过Dense->ReLU->Dense层,得到数据Xp以及其正例样本数据和负例样本数据的特征向量;
C、将数据Xp的特征向量zp输入到softmax激活函数中,得到数据Xp的分类预测值yp′;
D、将数据Xp特征向量及其正例样本数据的特征向量、负例样本数据的特征向量以及分类预测值yp′根据损失函数的计算方式,来计算神经网络模型的损失及其相应的损失梯度,再利用梯度下降法更新神经网络每一层的权重;
所述损失函数的计算具体如下:
结合对比损失和焦点损失,设计了一种融入正则化对比因子的基于焦点损失的损失函数计算方法,具体如下:
1)融入正则化对比因子的基于焦点损失的损失函数定义如下:
L=Lfl+βL*
其中:L为损失函数,Lfl为焦点损失函数,β(β>0)为控制损失大小的正则化系数,L*是作为正则化对比损失因子;
2)焦点损失函数首先在交叉熵损失的基础上加了一个因子γ(γ>0),其中使得减少易分类样本的损失,使得神经网络模型更关注于困难的、错分的样本数据(此处样本数据包括原始数据、正例样本数据和负例样本数据);再引入一个平衡因子α(0<α<1),用来平衡正例样本数据和负例样本数据本身数量比例不均的问题(即类别不均衡):
Figure BDA0003740526070000121
其中:y为真实值,y′为实际的输出值。
Figure BDA0003740526070000122
其中:τ(τ>0)为温度超参数。
步骤五、判定神经网络模型的训练是否达到训练停止条件,若达到,则输出病历样本数据库中每条数据的特征向量表示及其分类预测值;若未达到,则返回步骤四继续新一轮的训练,直到达到神经网络模型的训练停止条件;完成神经网络模型的训练。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于对比学习的电子病历数据预训练方法,其特征在于,包括以下步骤:
步骤一、将每个电子病历数据采用不同类别、不同属性的方式建立病历样本数据库;
步骤二、采用数据分级和数据归一化对数病历样本数据库内的数据进行预处理;
步骤三、基于属性距离采样每条数据的正例样本数据和负例样本数据;
步骤四、利用对比学习的方法对病历样本数据库中的数据进行训练,具体包括:
对病历样本数据库中的所有数据以及其对应的正例样本数据和负例样本数据进行一一训练,得到每条数据的特征向量和预测值;再根据所有数据的特征向量及其预测值计算损失函数,并根据损失函数对神经网络模型的权重矩阵进行更新;
判断神经网络模型的训练是否达到停止条件,若达到,则训练结束,并输出每条数据的特征向量和预测值;若未达到,则对数据进行新一轮的训练,直到达到神经网络模型训练的停止条件。
2.根据权利要求1所述的基于对比学习的电子病历数据预训练方法,其特征在于,基于属性距离采样每条数据的正例样本数据和负例样本数据的具体过程如下:
通过下式计算各个数据彼此之间的属性距离Dist(Xa,Xb):
Figure FDA0003740526060000011
其中:Xa为病历样本数据库中的第a个数据,Xb为病历样本数据库中的第b个数据,每个数据具有m个维度的属性值,Xaq表示数据Xa的第q维属性的值,Xbq表示数据Xb的第q维属性的值;a,b=1,2,…N,N为病历样本数据库的数据总个数;a≠b,m≥1,q=1,2,…m;
对于具有C个类别的病历样本数据库的所有数据Xall,针对病历样本数据库中的每一个原始数据Xp∈Xall,从该数据同个类别的其余数据中提取出距离原始数据Xp的属性距离最小的K个样本,作为原始数据Xp的正例样本数据
Figure FDA0003740526060000012
从病历样本数据库的不同于原始数据Xp的其余C-1个类别中的每个类别数据中提取出距离原始数据Xp的属性距离最大的K个样本,所有的(C-1)K个样本作为该数据的负例样本数据
Figure FDA0003740526060000013
其中:K≥1;p=1,2,…N;i=1,2,…K;j=1,2,…(C-1)K;原始数据Xp为病历样本数据库中的任意一个数据。
3.根据权利要求2所述的基于对比学习的电子病历数据预训练方法,其特征在于,对数据以及其对应的正例样本数据和负例样本数据进行训练得到该条数据的特征向量和预测值,具体操作如下:
利用对比学习的方法对某条数据以及其对应的正例样本数据和负例样本数据进行训练,并在训练过程中,通过对该原始数据以及其正例样本数据和负例样本数据之间相似性的调整,从而充分学习到该原始数据的特征表示;
通过三层神经网络模型对该原始数据以及该条数据的正例样本数据和负例样本数据进行训练,得到该原始数据的特征向量表示为zp、其正例样本数据
Figure FDA0003740526060000028
的特征向量表示为zpi +、其负例样本数据
Figure FDA0003740526060000021
的特征向量表示为zpj -以及其分类预测值yp′。
4.根据权利要求3所述的基于对比学习的电子病历数据预训练方法,其特征在于,通过三层神经网络模型对该原始数据以及该数据的正例样本数据和负例样本数据进行训练的具体过程如下:
I、将原始数据Xp以及其正例样本数据
Figure FDA0003740526060000022
和负例样本数据
Figure FDA0003740526060000023
通过Dense->ReLU->Dense层,得到原始数据Xp的特征向量表示zp,其正例样本数据
Figure FDA0003740526060000024
的特征向量表示zpi +以及其负例样本数据
Figure FDA0003740526060000025
的特征向量表示zpj -
II、将原始数据Xp的特征向量zp输入到softmax激活函数中,得到原始数据Xp的分类预测值yp′。
5.根据权利要求4所述的基于对比学习的电子病历数据预训练方法,其特征在于,根据损失函数对神经网络模型的权重矩阵进行更新的具体方法如下:
计算神经网络模型的损失函数:
L=Lfl+βL*
Figure FDA0003740526060000026
Figure FDA0003740526060000027
其中:L为损失函数,Lfl为焦点损失函数,β为控制损失大小的正则化系数且β>0,L*是作为正则化对比损失因子,y为真实值,y′为实际的输出值,τ为温度超参数且τ>0;
利用损失梯度下降法更新神经网络模型每一层的权重矩阵。
CN202210814501.8A 2022-07-11 2022-07-11 一种基于对比学习的电子病历数据预训练方法 Active CN115019923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210814501.8A CN115019923B (zh) 2022-07-11 2022-07-11 一种基于对比学习的电子病历数据预训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210814501.8A CN115019923B (zh) 2022-07-11 2022-07-11 一种基于对比学习的电子病历数据预训练方法

Publications (2)

Publication Number Publication Date
CN115019923A true CN115019923A (zh) 2022-09-06
CN115019923B CN115019923B (zh) 2023-04-28

Family

ID=83080646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210814501.8A Active CN115019923B (zh) 2022-07-11 2022-07-11 一种基于对比学习的电子病历数据预训练方法

Country Status (1)

Country Link
CN (1) CN115019923B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682565A (zh) * 2023-07-28 2023-09-01 济南蓝博电子技术有限公司 一种数字化医疗信息在线监测方法、终端及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652355A (zh) * 2020-06-02 2020-09-11 中南大学 一种基于lstm&dnn的高炉铁水硅含量预测方法及装置
US20210319266A1 (en) * 2020-04-13 2021-10-14 Google Llc Systems and methods for contrastive learning of visual representations
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN114023412A (zh) * 2021-11-23 2022-02-08 大连海事大学 基于联合学习和去噪机制的icd代码预测方法及系统
CN114093507A (zh) * 2021-11-26 2022-02-25 南京邮电大学 边缘计算网络中基于对比学习的皮肤病智能分类方法
WO2022069884A1 (en) * 2020-10-02 2022-04-07 Oxford University Innovation Limited Clinical prototypes
CN114429822A (zh) * 2021-12-15 2022-05-03 北京惠及智医科技有限公司 病历质检方法、装置和存储介质
CN114564651A (zh) * 2022-03-11 2022-05-31 辽宁工程技术大学 一种结合对比学习方法的自监督推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210319266A1 (en) * 2020-04-13 2021-10-14 Google Llc Systems and methods for contrastive learning of visual representations
CN111652355A (zh) * 2020-06-02 2020-09-11 中南大学 一种基于lstm&dnn的高炉铁水硅含量预测方法及装置
WO2022069884A1 (en) * 2020-10-02 2022-04-07 Oxford University Innovation Limited Clinical prototypes
CN114023412A (zh) * 2021-11-23 2022-02-08 大连海事大学 基于联合学习和去噪机制的icd代码预测方法及系统
CN114093507A (zh) * 2021-11-26 2022-02-25 南京邮电大学 边缘计算网络中基于对比学习的皮肤病智能分类方法
CN114429822A (zh) * 2021-12-15 2022-05-03 北京惠及智医科技有限公司 病历质检方法、装置和存储介质
CN113990495A (zh) * 2021-12-27 2022-01-28 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN114564651A (zh) * 2022-03-11 2022-05-31 辽宁工程技术大学 一种结合对比学习方法的自监督推荐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BAIQIANG GAN: ""A convolutional neural network intrusion detection method based on data imbalance"", 《THE JOURNAL OF SUPERCOMPUTING》 *
YEN-PIN CHEN等: ""disease concept-Embedding Based on the Self-Supervised Method for Medical Information Extraction from Electronic Health Records and Disease Retrieval:Algorithm Development and Validation Study"", 《JOURNAL OF MEDICAL INTERNET RESEARCH》 *
康健等: "基于监督对比学习正则化的高分辨率SAR图像建筑物提取方法", 《雷达学报》 *
线岩团: "面向冶金行业的互联网文本信息获取及分析方法研究", 《中国优秀博士论文 工程科技I辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682565A (zh) * 2023-07-28 2023-09-01 济南蓝博电子技术有限公司 一种数字化医疗信息在线监测方法、终端及介质
CN116682565B (zh) * 2023-07-28 2023-11-10 济南蓝博电子技术有限公司 一种数字化医疗信息在线监测方法、终端及介质

Also Published As

Publication number Publication date
CN115019923B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
Liu et al. Two-stage federated phenotyping and patient representation learning
CN109785976B (zh) 一种基于Soft-Voting的痛风病分期预测系统
CN107656952B (zh) 平行智能病例推荐模型的建模方法
WO2016192612A1 (zh) 基于深度学习对医疗数据进行分析的方法及其智能分析仪
CN113040711B (zh) 一种脑卒中发病风险预测系统、设备、存储介质
CN111414393A (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN111161814A (zh) 一种基于卷积神经网络的DRGs自动分组方法
CN109036577A (zh) 糖尿病并发症分析方法及装置
CN111061700A (zh) 基于相似性学习的就医迁移方案推荐方法及系统
CN112199415A (zh) 一种数据特征预处理的方法及其实现系统和应用
CN110765788B (zh) 一种基于隐式翻译模型的知识图谱嵌入方法
Li et al. Predicting clinical outcomes with patient stratification via deep mixture neural networks
Sharma et al. A diabetes monitoring system and health-medical service composition model in cloud environment
CN115019923B (zh) 一种基于对比学习的电子病历数据预训练方法
Singh et al. A stack autoencoders based deep neural network approach for cervical cell classification in pap-smear images
CN113284627B (zh) 基于患者表征学习的用药推荐方法
Lin et al. Research on Disease Prediction Model Construction Based on Computer AI deep Learning Technology
CN112990270B (zh) 一种传统特征与深度特征的自动融合方法
Azam et al. Classification of COVID-19 symptoms using multilayer perceptron
Özdem et al. A ga-based cnn model for brain tumor classification
CN109934281B (zh) 一种二分类网络的非监督训练方法
Alkafrawi et al. Blood cells classification using deep learning technique
Wu et al. Efficient Multi-Label Attribute Classification and Recognition of Microbiological Bacteria Based on Deep Learning and model fine-tuning
Liang et al. A medical text classification approach with ZEN and capsule network
Mbilong et al. Predicting COVID-19 cases using CNN model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Fangfang

Inventor after: Wu Shimeng

Inventor after: Zeng Yongzhe

Inventor after: Tang Dafu

Inventor before: Li Fangfang

Inventor before: Wu Shimeng

Inventor before: Zeng Yongzhe

Inventor before: Tang Dafu

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant